GenBank

Abstract

GenBank (R) jest kompleksową bazą danych, która zawiera publicznie dostępne sekwencje nukleotydów dla ponad 240 000 nazwanych organizmów, uzyskane głównie poprzez zgłoszenia z pojedynczych laboratoriów i zgłoszenia partii z projektów sekwencjonowania na dużą skalę. Większość zgłoszeń jest dokonywana za pomocą internetowego programu BankIt lub samodzielnego programu Sequin, a numery akcesyjne są nadawane przez pracowników GenBank po ich otrzymaniu. Codzienna wymiana danych z EMBL Data Library w Europie i DNA Data Bank w Japonii zapewnia ogólnoświatowy zasięg. GenBank jest dostępny poprzez system wyszukiwania NCBI, Entrez, który integruje dane z głównych baz danych sekwencji DNA i białek wraz z taksonomią, genomem, mapowaniem, strukturą białek i informacjami o domenach oraz literaturą czasopism biomedycznych poprzez PubMed. BLAST zapewnia wyszukiwanie podobieństwa sekwencji w GenBank i innych bazach danych sekwencji. Kompletne dwumiesięczne wydania i codzienne aktualizacje bazy danych GenBank są dostępne przez FTP. Aby uzyskać dostęp do GenBank i związanych z nim usług wyszukiwania i analizy, należy rozpocząć od strony głównej NCBI (Author Webpage).

INTRODUCTION

GenBank (1) jest wszechstronną publiczną bazą danych sekwencji nukleotydów i wspierających je bibliograficznych i biologicznych adnotacji, zbudowaną i dystrybuowaną przez National Center for Biotechnology Information (NCBI), oddział National Library of Medicine (NLM), znajdujący się w kampusie US National Institutes of Health (NIH) w Bethesda, MD.

NCBI buduje GenBank głównie z przedłożenia danych sekwencji od autorów i od masowego składania wyrażonych tagów sekwencji (EST), sekwencji badania genomu (GSS) i innych danych o wysokiej wydajności z centrów sekwencjonowania. Amerykański Urząd Patentów i Znaków Towarowych również dostarcza sekwencje z wydanych patentów. GenBank, EMBL Data Library (2) w Europie i DNA Databank of Japan (DDBJ) (3) tworzą Międzynarodowe Bazy Danych Sekwencji Nukleotydów i są członkami długotrwałej współpracy, w ramach której informacje są wymieniane codziennie, aby zapewnić jednolity i wszechstronny zbiór informacji o sekwencjach. NCBI udostępnia dane GenBank bez żadnych kosztów przez Internet, przez FTP i przez szeroki zakres usług wyszukiwania i analizy opartych na sieci, które działają na danych GenBank (4).

ORGANIZACJA BAZY

Od momentu powstania GenBank podwajał swój rozmiar co 18 miesięcy. Obecnie zawiera ponad 65 miliardów baz nukleotydowych z ponad 61 milionów indywidualnych sekwencji, z 15 milionami nowych sekwencji dodanych w zeszłym roku. Dane z projektów typu whole genome shotgun (WGS) uzupełniają dane z tradycyjnych działów, dzięki czemu suma przekroczyła 145 miliardów baz. Kompletne genomy (Author Webpage) nadal stanowią rosnącą część bazy danych, z ponad 120 z ponad 370 kompletnych genomów mikroorganizmów w GenBank zdeponowanych w ciągu ostatniego roku. Liczba genomów eukariotycznych, dla których pokrycie i złożenie są znaczące, również się zwiększa, z ponad 104 złożeniami obecnie dostępnymi, w tym z referencyjnym genomem ludzkim.

Taksonomia oparta na sekwencji

Sekwencje bazy danych są klasyfikowane i mogą być wyszukiwane przy użyciu kompleksowej taksonomii opartej na sekwencji (Author Webpage) opracowanej przez NCBI we współpracy z EMBL i DDBJ oraz z cenną pomocą zewnętrznych doradców i kuratorów. W GenBank reprezentowanych jest ponad 240 000 nazwanych gatunków, a nowe gatunki są dodawane w tempie ponad 2900 miesięcznie. Około 16% sekwencji w GenBanku jest pochodzenia ludzkiego, a 13% wszystkich sekwencji to ludzkie EST. Po Homo sapiens, najlepszymi gatunkami w GenBank pod względem liczby baz są Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis i Canis familiaris.

Rekordy i podziały GenBank

Każdy wpis GenBank zawiera zwięzły opis sekwencji, nazwę naukową i taksonomię organizmu źródłowego, odniesienia bibliograficzne oraz tabelę cech (Author Webpage) wymieniającą obszary o znaczeniu biologicznym, takie jak regiony kodujące i ich translacje białkowe, jednostki transkrypcyjne, regiony powtórzeń oraz miejsca mutacji lub modyfikacji.

Pliki w dystrybucji GenBank były tradycyjnie podzielone na „działy”, które z grubsza odpowiadają grupom taksonomicznym, takim jak bakterie (BCT), wirusy (VRL), naczelne (PRI) i gryzonie (ROD). W ostatnich latach dodano podziały w celu wsparcia określonych strategii sekwencjonowania. W ostatnich latach dodano działy wspierające określone strategie sekwencjonowania. Obejmują one działy dla sekwencji znaczników sekwencji ekspresji (EST), badania genomu (GSS), sekwencji genomowych o dużej wydajności (HTG), sekwencji cDNA o dużej wydajności (HTC) oraz sekwencji próbek środowiskowych (ENV), co w sumie daje 18 działów. Dla wygody transferu plików, większe działy, takie jak EST i PRI, są podzielone na wiele plików dla dwumiesięcznych wydań GenBank na stronie FTP NCBI.

Expressed sequence tags

ESTs nadal są głównym źródłem nowych rekordów sekwencji i sekwencji genów, obejmujących ponad 21 miliardów baz nukleotydowych w wydaniu 155 GenBank. W ciągu ostatniego roku liczba EST-ów wzrosła o ponad 40% do 38,3 mln sekwencji reprezentujących ponad 1200 różnych organizmów. Najważniejsze organizmy reprezentowane w dziale EST to H.sapiens (7,8 mln rekordów), M.musculus (4,7 mln rekordów), O.sativa (1,2 mln rekordów), Z.mays (1,1 mln rekordów), B.taurus (1,1 mln rekordów) i D.rerio (1,1 mln rekordów). W ramach codziennego przetwarzania danych GenBank EST, NCBI identyfikuje poprzez wyszukiwanie BLAST wszystkie homologie dla nowych sekwencji EST i włącza te informacje do towarzyszącej bazy danych dbEST (strona internetowa autora) (5). Dane w dbEST są dalej przetwarzane w celu wytworzenia bazy danych UniGene (Author Webpage) zawierającej ponad 1,2 miliona klastrów sekwencji ukierunkowanych na geny, reprezentujących ponad 70 organizmów, opisanych dokładniej w (4).

Sequence-tagged sites (STSs), genome survey sequences (GSSs) and environmental sample sequences (ENV)

Dział STS w GenBank (Author Webpage) zawiera ponad 883 000 sekwencji, w tym anonimowe STS oparte na sekwencji genomowej, jak również STS oparte na genach, pochodzące z 3′ końców genów i ESTs. Te rekordy STS zazwyczaj zawierają informacje o mapowaniu.

Dział GSS w GenBank (Author Webpage) wzrósł w ciągu ostatniego roku o 22% do łącznej liczby 14,9 mln rekordów dla ponad 600 organizmów i obejmuje ponad 9,4 mld baz nukleotydowych. Rekordy GSS to przede wszystkim pojedyncze odczyty ze sztucznych chromosomów bakteryjnych („BAC-ends”) wykorzystywanych w różnych projektach sekwencjonowania genomów. Najliczniej reprezentowane gatunki w podziale GSS to Z.mays (2,0 mln rekordów), M.musculus (1,5 mln rekordów), H.sapiens (970 000 rekordów) i C.familiaris (854 000 rekordów). Ludzkie rekordy GSS zostały wykorzystane (strona internetowa autora) wraz z rekordami STS w układaniu BACs dla Human Genome Project (6).

Dział ENV GenBanku mieści sekwencje nie-WGS uzyskane poprzez metody pobierania próbek środowiskowych, w których organizm źródłowy jest nieznany. Rekordy w dziale ENV zawierają „ENV” w polu słowa kluczowego i używają kwalifikatora „/environmental_sample” w elemencie źródłowym. Od wydania 155 GenBank, dział ENV GenBank zawierał ponad 275 000 sekwencji, obejmujących 236 milionów par zasad, reprezentujących ponad 4900 badań.

Sekwencje genomowe o dużej wydajności (HTC) i sekwencje cDNA o dużej wydajności (HTC)

Dział HTG GenBank (Author Webpage) zawiera nieukończone rekordy genomowe o dużej skali, które są w trakcie przechodzenia do stanu ukończonego (7). Rekordy te są oznaczone jako Faza 0-3 w zależności od jakości danych. Po osiągnięciu fazy 3, stanu końcowego, rekordy HTG są przenoszone do odpowiedniego działu GenBank dotyczącego organizmów. W wersji 155 GenBank, dział HTG zawierał 15,9 miliardów par zasad sekwencji, co stanowi wzrost o prawie 3 miliardy par zasad w ciągu ostatniego roku.

Dział HTC w GenBank mieści sekwencje HTC. HTC mają jakość projektu, ale mogą zawierać regiony 5′-nieulegające translacji (5′-UTR) i 3′-UTR, częściowe regiony kodujące i introny. Sekwencje HTC, które są ukończone i wysokiej jakości, są przenoszone do odpowiedniego działu GenBank dotyczącego danego organizmu. GenBank w wersji 155 zawiera ponad 441 000 sekwencji HTC o łącznej długości ponad 539 milionów zasad. Jeden z projektów generujących dane HTC jest opisany w (8).

Whole genome shotgun sequence (WGS)

Ponad 80 miliardów baz sekwencji WGS pojawia się w GenBank jako zestawy kontigów WGS, wiele z nich opatrzonych adnotacjami, pochodzących z jednego projektu sekwencjonowania. Sekwencjom tym nadawane są numery akcesyjne składające się z czteroliterowego identyfikatora projektu, po którym następuje dwucyfrowy numer wersji oraz sześciocyfrowy identyfikator kontigu. Stąd numer akcesyjny WGS „AAAA01072744” jest przypisany do kontinuum „072744” pierwszej wersji projektu „AAAA”. Projekty sekwencjonowania WGS dostarczyły do GenBank ponad 18 milionów kontigów, co stanowi wzrost o 64% w ciągu ostatniego roku. Te pierwotne sekwencje zostały wykorzystane do skonstruowania około 760 000 wielkoskalowych złożeń rusztowań i chromosomów. Dostępne są kontigi projektów WGS dla H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces oraz ponad 450 innych organizmów i próbek środowiskowych. Pełna lista projektów WGS wraz z linkami do danych znajduje się na stronie autora.

Projekty WGS mogą być opatrzone przypisami. Jednakże, wiele projektów genomowych o niskim pokryciu nie zawiera adnotacji. Ponieważ te projekty sekwencji są uważane za projekty i nie są kompletne, te adnotacje mogą nie być śledzone z jednej wersji montażu do następnej i powinny być uważane za wstępne.

Przedstawiciele sekwencji WGS, i ogólnie sekwencji genomowych, są zachęcani do korzystania z nowego zestawu znaczników dowodów w postaci „/experimental=text” i „/inference=TYPE:text”, gdzie „TYPE” jest jednym z wielu standardowych typów wnioskowania, a „text” składa się z tekstu strukturalnego. Te nowe kwalifikatory zastępują odpowiednio 'evidence=experimental’ i 'evidence=non-experimental’, które nie są już obsługiwane.

Specjalne typy rekordów

Third Party Annotation

Rekordy TPA (Third Party Annotation) wspierają zgłaszanie opublikowanych adnotacji sekwencji przez naukowca innego niż pierwotny przedkładający rekord sekwencji pierwotnej w DDBJ/EMBL/GenBank. Rekordy TPA należą do jednej z dwóch kategorii: „doświadczalne”, w którym to przypadku istnieje bezpośredni dowód doświadczalny na istnienie adnotowanej cząsteczki, oraz „wnioskowe”, w którym to przypadku dowód doświadczalny jest pośredni. Sekwencje TPA mogą być utworzone przez złożenie pewnej liczby sekwencji pierwotnych. Format rekordu TPA (np. BK000016) jest podobny do formatu konwencjonalnego rekordu GenBank, ale zawiera etykietę „TPA:” na początku każdego wiersza definicji oraz słowa kluczowe „Third Party Annotation; TPA” w polu Keywords. Pole Comment rekordów TPA wymienia sekwencje pierwotne użyte do złożenia sekwencji TPA; pole Primary dostarcza zakresów bazowych sekwencji pierwotnych, które przyczyniają się do powstania sekwencji TPA.

Ponad 5000 rekordów TPA jest zawartych w GenBank release 155, w tym ponad 2170 dla Drosophila melanogaster, 950 dla H.sapiens, 330 dla O.sativa i 290 dla M.musculus. Sekwencje TPA nie są udostępniane publicznie, dopóki ich numery akcesyjne lub dane sekwencji i adnotacje nie pojawią się w recenzowanym czasopiśmie biologicznym. Zgłoszenia TPA do GenBank można dokonywać za pomocą BankIt lub Sequin. Aby uzyskać więcej informacji na temat TPA, zobacz Author Webpage.

GenBank CON records for assemblies of smaller records

Although many genomes, such as bacterial genomes, are represented in GenBank as single sequences, it is desirable from the standpoints of data transfer and analysis to break some very long sequences, such as portions of eukaryotic genomes, into smaller segments. W takich przypadkach tworzone są rekordy podziału CON dla całej sekwencji, które zawierają instrukcje montażu pozwalające na bezproblemowe wyświetlanie i pobieranie pełnej sekwencji. Wiele rekordów CON zawiera również adnotacje.

BUDOWA BAZY

Sekwencje i adnotacje biologiczne w GenBank, oraz współpracujących bazach EMBL i DDBJ, są dostarczane głównie przez indywidualnych autorów do jednej z trzech baz danych, lub przez centra sekwencjonowania jako partie sekwencji EST, STS, GSS, HTC, WGS, lub HTG. Informacje są codziennie wymieniane z DDBJ i EMBL, tak aby codzienne aktualizacje z serwerów NCBI zawierały najnowsze dostępne dane sekwencji ze wszystkich źródeł.

Bezpośrednie zgłoszenia elektroniczne

Prawie wszystkie rekordy są wprowadzane do GenBank jako bezpośrednie zgłoszenia elektroniczne (Author Webpage), przy czym większość autorów używa programów BankIt lub Sequin. Wiele czasopism wymaga od autorów posiadających dane sekwencyjne, aby jako warunek publikacji przesłali je do publicznej bazy danych.

Personel GenBanku może zazwyczaj nadać numer akcesyjny przesłanej sekwencji w ciągu dwóch dni roboczych od jej otrzymania i robi to w tempie prawie 1600 dziennie. Numer akcesyjny służy jako potwierdzenie, że sekwencja została przesłana i pozwala czytelnikom artykułów, w których sekwencja jest cytowana, na odnalezienie danych. Bezpośrednie zgłoszenia są poddawane kontroli jakości, która obejmuje sprawdzenie zanieczyszczenia wektora, poprawności tłumaczenia regionów kodujących, poprawności taksonomii i poprawności cytowań bibliograficznych. Projekt rekordu GenBank jest przekazywany z powrotem autorowi do przeglądu przed wprowadzeniem do bazy danych. Autorzy mogą poprosić o zachowanie poufności ich sekwencji do czasu publikacji. Ponieważ polityka GenBank wymaga, aby zdeponowane dane sekwencji były upublicznione w momencie opublikowania sekwencji lub numeru akcesyjnego, autorzy są poinstruowani, aby poinformować pracowników GenBank o dacie publikacji artykułu, w którym sekwencja jest cytowana, w celu zapewnienia terminowego udostępnienia danych. Chociaż tylko naukowiec przesyłający dane może modyfikować dane sekwencji lub adnotacje, wszyscy użytkownicy są zachęcani do zgłaszania opóźnień w udostępnianiu danych lub możliwych błędów lub pominięć do GenBank na [email protected].

NCBI ściśle współpracuje z centrami sekwencjonowania, aby zapewnić terminowe włączenie danych masowych do GenBank do publicznego wydania. GenBank oferuje specjalne procedury wsadowe dla grup sekwencjonowania na dużą skalę w celu ułatwienia przesyłania danych, w tym program 'tbl2asn’, opisany na Author Webpage.

Przesyłanie przy użyciu BankIt

Około jedna trzecia zgłoszeń autorów jest otrzymywana za pośrednictwem internetowego narzędzia do przesyłania danych NCBI, BankIt (Author Webpage). Korzystając z BankIt, autorzy wprowadzają informacje o sekwencji bezpośrednio do formularza i dodają adnotacje biologiczne, takie jak regiony kodujące lub cechy mRNA. Swobodne pola tekstowe, pola listy i rozwijane menu pozwalają na dalsze opisywanie sekwencji bez konieczności uczenia się reguł formatowania lub ograniczonych słowników. BankIt waliduje przesłane dane, sygnalizując wiele typowych błędów i sprawdzając zanieczyszczenie wektorowe za pomocą wariantu BLAST zwanego Vecscreen, przed utworzeniem projektu rekordu w formacie płaskiego pliku GenBank, który zgłaszający może przejrzeć. BankIt jest narzędziem z wyboru dla prostych zgłoszeń, zwłaszcza gdy ma być przesłany tylko jeden lub niewielka liczba rekordów (7). BankIt może być również używany przez przedkładających do aktualizacji ich istniejących rekordów GenBank.

Submission using Sequin and tbl2asn

NCBI oferuje również samodzielny wieloplatformowy program składania o nazwie Sequin (Author Webpage), który może być używany interaktywnie z innymi narzędziami NCBI do pobierania i analizy sekwencji. Sequin obsługuje proste sekwencje, takie jak cDNA, jak również segmentowane wpisy, badania filogenetyczne, badania populacji, badania mutacji, próbki środowiskowe i wyrównania, dla których BankIt i inne internetowe narzędzia składania nie są dobrze przystosowane. Sequin posiada wygodne możliwości edycji i złożonej anotacji oraz zawiera szereg wbudowanych funkcji walidacji dla zapewnienia jakości. Ponadto, Sequin jest w stanie pomieścić duże sekwencje, takie jak genom Escherichia coli o rozmiarze 5,6 Mb, i wczytać pełny zestaw adnotacji za pomocą prostych tabel. Wersje dla komputerów Macintosh, PC i Unix są dostępne poprzez anonimowy FTP pod adresem (Author Webpage) w katalogu 'sequin’. Po zakończeniu zgłaszania, zgłaszający mogą wysłać plik Sequin pocztą elektroniczną na adres ([email protected]).

Zgłaszający duże, silnie anotowane genomy mogą uznać za wygodne użycie 'tbl2asn’, o którym mowa powyżej w 'Direct submission’, do konwersji tabeli adnotacji wygenerowanej przez potok adnotacji do rekordu ASN.1, odpowiedniego do przesłania do GenBank. do złożenia w GenBank.

Składanie sekwencji kodów kreskowych

The Consortium for the Barcode of Life (CBOL) jest międzynarodową inicjatywą mającą na celu rozwój kodowania kreskowego DNA jako narzędzia do charakteryzowania gatunków organizmów przy użyciu krótkiej sekwencji DNA pochodzącej z części genu podjednostki I oksydazy cytochromowej. NCBI, we współpracy z CBOL (Author Webpage), stworzyło narzędzie online do masowego przesyłania sekwencji kodów kreskowych do GenBank (Author Webpage), które pozwala użytkownikom przesyłać pliki zawierające partię sekwencji z powiązanymi informacjami źródłowymi. Przewiduje się, że narzędzie to będzie wykorzystywane do innych typów masowego przesyłania danych w najbliższej przyszłości.

Identyfikatory sekwencji i numery akcesyjne

Każdy rekord GenBank, składający się zarówno z sekwencji, jak i jej adnotacji, ma przypisany unikalny identyfikator, numer akcesyjny, który jest wspólny dla trzech współpracujących baz danych (GenBank, DDBJ, EMBL) i pozostaje niezmienny przez cały okres istnienia rekordu, nawet jeśli nastąpiła zmiana sekwencji lub adnotacji. Każdej wersji sekwencji DNA w rekordzie GenBank przypisany jest również niepowtarzalny identyfikator NCBI, zwany „gi”, który pojawia się w wierszu VERSION w rekordach plików płaskich GenBank po numerze akcesji. Trzeci identyfikator w formie „Accession.version”, również wyświetlany w linii VERSION rekordów plików płaskich, zawiera informacje obecne zarówno w numerze gi, jak i w numerze akcesji. Wpis pojawiający się w bazie danych po raz pierwszy ma identyfikator „Accession.version” równoważny numerowi ACCESSION rekordu GenBank, po którym następuje „.1”, aby wskazać pierwszą wersję sekwencji dla tego rekordu, np.

ACCESSION AF000001

VERSION AF000001.1 GI: 987654321

Gdy dokonuje się zmiany w sekwencji podanej w rekordzie GenBank, sekwencji nadaje się nowy numer gi i zwiększa się rozszerzenie wersji identyfikatora „Accession.version”. Numer akcesyjny dla całego rekordu pozostaje niezmieniony, a starsza sekwencja pozostaje dostępna pod starym identyfikatorem 'Accession.version’ i gi.

Podobny system śledzi zmiany w odpowiednich translacjach białek. Identyfikatory te pojawiają się jako kwalifikatory cech CDS w części FEATURES wpisu GenBank, np. /protein_id=’AAA00001.1′. Tłumaczenia sekwencji białkowych otrzymują również swój własny unikalny numer gi, który pojawia się jako drugi kwalifikator w cechach CDS, np. /db_xref=’ GI:1233445′.

Zapewnienie stabilnego dostępu do danych sekwencji

Staje się coraz bardziej popularne wśród grup badawczych dzielenie się nowymi sekwencjami biologicznymi i aktualizowanie istniejących sekwencji poprzez bezpośrednie umieszczanie danych w sieci. Chociaż jest to wygodny i skuteczny sposób dzielenia się danymi wśród grupy współpracowników, jeśli oryginalne dane i aktualizacje nie są również przekazywane do centralnego repozytorium, pojawiają się trzy znaczące problemy: czas dostępu do danych może zostać skrócony, pełny kontekst biologiczny danych może nie zostać zrealizowany, a istniejące dane w silnie wykorzystywanych scentralizowanych bazach danych staną się nieaktualne.

Efemeryczna natura wielu treści w sieci jest częścią wspólnego doświadczenia użytkowników sieci. W jednej z prób ilościowego określenia czasu życia treści, 360 losowo wybranych stron internetowych było śledzonych przez okres 4 lat, a okres połowicznego zaniku wynosił tylko 2 lata dla całego zestawu (9). Chociaż dobrze utrzymana strona internetowa może z pewnością utrzymywać się dłużej niż 2 lata, stosunkowo krótki okres półtrwania zgłoszony dla tego zestawu stron odzwierciedla wiele czynników, które mogą interweniować, aby wpłynąć na dostęp do danych umieszczonych w sieci.

Nawet podczas dostępnego okresu życia danych sekwencji umieszczonych w sieci, jednak pełny kontekst biologiczny sekwencji może nie być realizowany, jeśli sekwencja nie może być wygodnie porównywana z innymi – być może pochodzącymi z odległych organizmów, które są poza zakresem strony internetowej gospodarza.

Przesłanie danych sekwencji do scentralizowanego repozytorium, takiego jak GenBank, rozwiązuje te trzy problemy. Naukowcy mają zapewniony stabilny dostęp do danych dzięki wersjonowanym co dwa miesiące wersjom dostępnym przez FTP, utrzymywanym przez NCBI oraz liczne interfejsy stron trzecich do jednolitego zbioru danych, a także redundancję archiwalną oferowaną przez trójstronną współpracę International Nucleotide Sequence Databases. Połączenie nowych danych z danymi innych badaczy z całego świata w centralnej bazie danych zapewnia szeroki kontekst biologiczny, który stymuluje odkrycia – utrzymywanie każdej sekwencji na bieżąco zwiększa użyteczność wszystkich sekwencji w bazie danych.

RETRIEVING DANYCH GenBank

System Entrez

Rejestry sekwencji w GenBank są dostępne poprzez Entrez (Author Webpage), elastyczny system wyszukiwania baz danych, który obejmuje ponad 30 biologicznych baz danych. Obejmują one sekwencje DNA i białek pochodzące z GenBank i innych źródeł, mapy genomów, zestawy sekwencji populacyjnych, filogenetycznych i środowiskowych, dane dotyczące ekspresji genów, taksonomię NCBI, informacje o domenach białkowych, struktury białek z Molecular Modeling Database, MMDB (10); każda baza danych jest połączona z literaturą naukową poprzez PubMed i PubMed Central.

Wyszukiwanie podobieństwa sekwencji BLAST

Wyszukiwanie podobieństwa sekwencji jest najbardziej podstawowym i najczęstszym rodzajem analizy wykonywanej na danych GenBank. NCBI oferuje rodzinę programów BLAST (Author Webpage) do wykrywania podobieństw między sekwencją zapytania a sekwencjami z bazy danych (11,12). Wyszukiwania BLAST mogą być wykonywane na stronie internetowej NCBI lub poprzez zestaw samodzielnych programów dystrybuowanych przez FTP. BLAST jest omówiony w osobnym artykule w tym numerze (4).

Otrzymywanie GenBank przez FTP

NCBI rozprowadza wydania GenBank w tradycyjnym formacie pliku płaskiego, jak również w formacie Abstract Syntax Notation (ASN.1) używanym do wewnętrznej konserwacji. Kompletne wydanie GenBank co dwa miesiące i codzienne aktualizacje, które również zawierają dane sekwencji z EMBL i DDBJ, są dostępne przez anonimowy FTP z NCBI pod adresem (Author Webpage), jak również z lustrzanej strony na Uniwersytecie Indiany (Author Webpage). Kompletne wydanie w formacie płaskiego pliku jest dostępne w postaci skompresowanych plików w katalogu 'genbank’ z niekumulatywnym zestawem aktualizacji zawartym w 'daily-nc’. W katalogu 'tools’ na stronie FTP GenBank znajduje się skrypt do konwersji zestawu codziennych aktualizacji na aktualizację zbiorczą.

MAILING ADDRESS

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tel: +1 301 496 2475; Fax: +1 301 480 9241.

ADRESY ELEKTRONICZNE

Strona główna NCBI: [email protected]

Przesyłanie danych sekwencji do GenBank: [email protected]

Zmiany lub powiadomienia o zwolnieniu „poufnych” wpisów GenBank: [email protected]

Ogólne informacje o NCBI i usługach: [email protected]

CYTOWANIE GenBank

Jeśli używają Państwo bazy danych GenBank w swoich opublikowanych badaniach, prosimy o cytowanie tej pracy.

Fundacja na pokrycie kosztów publikacji Open Access tego artykułu została zapewniona przez National Institutes of Health.

Oświadczenie o konflikcie interesów. None declared.

1

Benson
D.A.

,

Karsch-Mizrachi
I.

,

Lipman
D.J.

,

Ostell
J.

,

Wheeler
D.L.

.

GenBank

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

16

20

)

2

Cochrane
G.

,

Aldebert
P.

,

Althorpe
N.

,

Andersson
M.

,

Baker
W.

,

Baldwin
A.

,

Bates
K.

,

Bhattacharyya
S.

,

Browne
P.

,

van denBroek
A.

, et al.

EMBL Nucleotide Sequence Database: developments in 2005

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

10

15

)

3

Okubo
K.

,

Sugawara
H.

,

Gojobori
T.

,

Tateno
Y.

.

DDBJ w przygotowaniu do przeglądu działalności badawczej za zgłoszeniami danych

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

6

9

)

4

Wheeler
D.L.

,

Barrett
T.

,

Benson
D.A.

,

Bryant
S.H.

,

Canese
K.

,

Chetvernin
V.

,

Church
D.M.

,

DiCuccio
M.

,

Edgar
R.

,

Federhen
S.

, et al.

Zasoby bazy danych National Center for Biotechnology Information

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

173

180

)

5

Boguski
M.S.

,

Lowe
T.M.

,

Tolstoshev
C.M.

.

dbEST-database for 'expressed sequence tags’

,

Nature Genet.

,

1993

, vol.

4

(pg.

332

333

)

6

Smith
M.W.

,

Holmsen
A.L.

,

Wei
Y.H.

,

Peterson
M.

,

Evans
G.A.

.

Genomic sequence sampling: a strategy for high resolution sequence-based physical mapping of complex genomes

,

Nature Genet.

,

1994

, vol.

7

(pg.

40

47

)

7

Kans
J.

,

Ouellette
B.

. ,

Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins Rozdział Submitting DNA Sequences to the Databases

,

2001
NY
John Wiley and Sons, Inc.

(str.

65

81

)

8

Kawai
J.

,

Shinagawa
A.

,

Shibata
K.

,

Yoshino
M.

,

Itoh
M.

,

Ishii
Y.

,

Arakawa
T.

,

Hara
A.

,

Fukunishi
Y.

,

Konno
H.

, et al.

Functional annotation of a full-length mouse cDNA collection

,

Nature

,

2001

, vol.

409

(pg.

685

690

)

9

Koehler
W.

.

Web page change and persistence-a four-year longitudinal study

,

J. Am. Soc. Inform. Sci. Technol.

,

2002

, vol.

53

(pg.

162

171

)

10

Marchler-Bauer
A.

,

Anderson
J.B.

,

Cherukuri
P.F.

,

DeWeese-Scott
C.

,

Geer
L.Y.

,

Gwadz
M.

,

He
S.

,

Hurwitz
D.I.

,

Jackson
J.D.

,

Ke
Z.

, et al.

CDD: a Conserved Domain Database for protein classification

,

Nucleic Acids Res.

,

2005

, vol.

33

(pg.

192

196

)

11

Altschul
S.F.

,

Madden
T.L.

,

Schäffer
A.A.

,

Zhang
J.

,

Zhang
Z.

,

Miller
W.

,

Lipman
D.J.

.

Gapped BLAST and PSI-BLAST: a new generation of protein database search programs

,

Nucleic Acids Res.

,

1997

, vol.

25

(pg.

3389

3402

)

12

Zhang
Z.

,

Schäffer
A.A.

,

Miller
W.

,

Madden
T.L.

,

Lipman
D.J.

,

Koonin
E.V.

,

Altschul
S.F.

.

Protein sequence similarity searches using patterns as seeds

,

Nucleic Acids Res.

,

1998

, vol.

26

(pg.

3986

3990

)

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.