GenBank | Nucleic Acids Research

Abstract
ÚVOD
ORGANIZACE DATABÁZE
Taxonomie založená na sekvencích
Záznamy a rozdělení v GenBank
Tagy exprimovaných sekvencí
Sekvence s označením sekvence (STS), sekvence pro průzkum genomu (GSS) a sekvence environmentálních vzorků (ENV)
Vysokokapacitní genomické sekvence (HTC) a vysokokapacitní cDNA sekvence (HTC)
Celogenomová shotgun sekvence (WGS)
Speciální typy záznamů
Third Party Annotation
Záznamy GenBank CON pro sestavy menších záznamů
VYBUDOVÁNÍ DATABÁZE
Přímé elektronické podání
Předkládání pomocí BankIt
Předkládání pomocí programu Sequin a tbl2asn
Předkládání sekvencí čárových kódů
Identifikátory sekvencí a přístupová čísla
Zajištění stabilního přístupu k sekvenčním datům
VYHLEDÁVÁNÍ ÚDAJŮ Z GENBANK
Systém Entrez
Vyhledávání sekvenční podobnosti metodouBLAST
Získávání GenBank pomocí FTP
POŠTOVNÍ ADRESA
ELEKTRONICKÉ ADRESY
CITOVÁNÍ GenBank

Abstract

GenBank (R) je rozsáhlá databáze, která obsahuje veřejně dostupné sekvence nukleotidů pro více než 240 000 pojmenovaných organismů, které byly získány převážně na základě příspěvků z jednotlivých laboratoří a dávkových příspěvků z rozsáhlých sekvenačních projektů. Většina podání se provádí pomocí webového programu BankIt nebo samostatného programu Sequin a přístupová čísla přidělují pracovníci GenBank po jejich obdržení. Denní výměna dat s evropskou datovou knihovnou EMBL a japonskou DNA Data Bank zajišťuje celosvětové pokrytí. GenBank je přístupná prostřednictvím vyhledávacího systému NCBI Entrez, který integruje údaje z hlavních databází sekvencí DNA a proteinů spolu s informacemi o taxonomii, genomu, mapování, struktuře a doménách proteinů a literaturou z biomedicínských časopisů prostřednictvím PubMed. BLAST poskytuje vyhledávání podobnosti sekvencí v databázi GenBank a dalších databázích sekvencí. Kompletní dvouměsíční vydání a denní aktualizace databáze GenBank jsou k dispozici prostřednictvím FTP. Přístup k databázi GenBank a souvisejícím vyhledávacím a analytickým službám lze zahájit na domovské stránce NCBI (webová stránka autora).

ÚVOD

GenBank (1) je komplexní veřejná databáze nukleotidových sekvencí a podpůrných bibliografických a biologických anotací, kterou vytváří a distribuuje Národní centrum pro biotechnologické informace (NCBI), divize Národní lékařské knihovny (NLM), sídlící v areálu amerických Národních institutů zdraví (NIH) v Bethesdě, MD.

NCBI buduje GenBank především na základě zasílání sekvenčních dat od autorů a na základě hromadného zasílání exprimovaných sekvenčních značek (EST), sekvencí pro průzkum genomu (GSS) a dalších vysoce výkonných dat ze sekvenačních center. Úřad USA pro patenty a ochranné známky rovněž přispívá sekvencemi z vydaných patentů. GenBank, evropská datová knihovna EMBL (2) a Japonská databanka DNA (DDBJ) (3) tvoří mezinárodní databáze nukleotidových sekvencí a jsou členy dlouhodobé spolupráce, v jejímž rámci dochází ke každodenní výměně informací s cílem zajistit jednotný a komplexní soubor informací o sekvencích. NCBI zpřístupňuje údaje GenBank bezplatně prostřednictvím internetu, FTP a široké škály webových služeb pro vyhledávání a analýzu, které pracují s údaji GenBank (4).

ORGANIZACE DATABÁZE

Od svého vzniku se GenBank přibližně každých 18 měsíců zdvojnásobuje. V současné době obsahuje více než 65 miliard nukleotidových bází z více než 61 milionů jednotlivých sekvencí, přičemž za poslední rok přibylo 15 milionů nových sekvencí. Příspěvky z projektů WGS (whole genome shotgun) doplňují údaje z tradičních oddílů, takže celkový počet přesáhl 145 miliard bází. Kompletní genomy (Author Webpage) nadále představují rostoucí část databáze, přičemž za poslední rok bylo do GenBank uloženo více než 120 z více než 370 kompletních mikrobiálních genomů. Počet genomů eukaryot, jejichž pokrytí a sestavení je významné, se také nadále zvyšuje – nyní je k dispozici více než 104 sestavení, včetně sestavení referenčního lidského genomu.

Taxonomie založená na sekvencích

Sekvence v databázi jsou klasifikovány a lze se na ně dotazovat pomocí komplexní taxonomie založené na sekvencích (Author Webpage), kterou vyvinula NCBI ve spolupráci s EMBL a DDBJ a za cenné pomoci externích poradců a kurátorů. V GenBank je zastoupeno více než 240 000 pojmenovaných druhů a nové druhy přibývají tempem přes 2900 měsíčně. Přibližně 16 % sekvencí v GenBank je lidského původu a 13 % všech sekvencí tvoří lidské EST. Po Homo sapiens jsou na prvních místech v GenBank z hlediska počtu bází Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis a Canis familiaris.

Záznamy a rozdělení v GenBank

Každý záznam v GenBank obsahuje stručný popis sekvence, vědecký název a taxonomii zdrojového organismu, bibliografické odkazy a tabulku vlastností (webová stránka autora), která uvádí oblasti biologického významu, jako jsou kódující oblasti a jejich překlady proteinů, transkripční jednotky, oblasti opakování a místa mutací nebo modifikací.

Soubory v distribuci GenBank jsou tradičně rozděleny do „divizí“, které zhruba odpovídají taxonomickým skupinám, jako jsou bakterie (BCT), viry (VRL), primáti (PRI) a hlodavci (ROD). V posledních letech byly přidány divize podporující specifické strategie sekvenování. V posledních letech byly přidány oddíly podporující specifické strategie sekvenování. Patří mezi ně oddělení pro exprimované sekvenční značky (EST), průzkum genomu (GSS), vysoce výkonné genomické sekvence (HTG), vysoce výkonné sekvence cDNA (HTC) a sekvence environmentálních vzorků (ENV), celkem tedy 18 oddělení. Kvůli pohodlí při přenosu souborů jsou větší oddíly, jako například EST a PRI, rozděleny do více souborů pro dvouměsíční uvolňování GenBank na stránkách FTP NCBI.

Tagy exprimovaných sekvencí

EST jsou i nadále hlavním zdrojem nových záznamů sekvencí a genových sekvencí, které ve vydání GenBank 155 zahrnují více než 21 miliard nukleotidových bází. Za poslední rok se počet EST zvýšil o více než 40 % na celkových 38,3 milionu sekvencí reprezentujících více než 1200 různých organismů. Nejvíce zastoupenými organismy v oddělení EST jsou H.sapiens (7,8 milionu záznamů), M.musculus (4,7 milionu záznamů), O.sativa (1,2 milionu záznamů), Z.mays (1,1 milionu záznamů), B.taurus (1,1 milionu záznamů) a D.rerio (1,1 milionu záznamů). V rámci každodenního zpracování údajů GenBank EST identifikuje NCBI pomocí vyhledávání BLAST všechny homologie pro nové sekvence EST a tyto informace začleňuje do doprovodné databáze dbEST (webová stránka autora) (5). Údaje v dbEST jsou dále zpracovávány a vytvářejí databázi UniGene (Author Webpage), která obsahuje více než 1,2 milionu genově orientovaných sekvenčních klastrů reprezentujících více než 70 organismů a je podrobněji popsána v (4).

Sekvence s označením sekvence (STS), sekvence pro průzkum genomu (GSS) a sekvence environmentálních vzorků (ENV)

Dělení STS v GenBank (Webová stránka autora) obsahuje více než 883 000 sekvencí, včetně anonymních STS založených na genomické sekvenci, jakož i STS založených na genu odvozených z 3′ konců genů a EST. Tyto záznamy STS obvykle obsahují mapovací informace.

Divize GSS GenBank (Author Webpage) se za poslední rok rozrostla o 22 % na celkových 14,9 milionu záznamů pro více než 600 organismů a obsahuje přes 9,4 miliardy nukleotidových bází. Záznamy GSS jsou převážně jednotlivá čtení z bakteriálních umělých chromozomů („BAC-konců“) používaných v různých projektech sekvenování genomu. Nejvíce zastoupenými druhy v divizi GSS jsou Z.mays (2,0 milionu záznamů), M.musculus (1,5 milionu záznamů), H.sapiens (970 000 záznamů) a C.familiaris (854 000 záznamů). Záznamy GSS člověka byly použity (webová stránka autora) spolu se záznamy STS při sestavování BAC pro projekt lidského genomu (6).

Divize ENV GenBank pojme sekvence, které nejsou získány metodami WGS, při nichž není znám zdrojový organismus. Záznamy v divizi ENV obsahují v poli klíčového slova „ENV“ a ve funkci zdroje používají kvalifikátor „/environmental_sample“. Ke dni vydání GenBank 155 obsahovalo oddělení ENV GenBank více než 275 000 sekvencí, které obsahovaly 236 milionů párů bází a představovaly více než 4900 studií.

Vysokokapacitní genomické sekvence (HTC) a vysokokapacitní cDNA sekvence (HTC)

Oddělení HTG GenBank (webová stránka autora) obsahuje nedokončené velkokapacitní genomické záznamy, které přecházejí do hotového stavu (7). Tyto záznamy jsou označovány jako fáze 0-3 v závislosti na kvalitě dat. Po dosažení fáze 3, tedy dokončeného stavu, jsou záznamy HTG přesunuty do příslušné divize GenBank týkající se organismů. Ke dni vydání 155. verze GenBank obsahovala divize HTG 15,9 miliardy párů bází sekvencí, což představuje nárůst o téměř 3 miliardy bází za poslední rok.

Divize HTC GenBank pojme sekvence HTC. HTC mají kvalitu návrhu, ale mohou obsahovat 5′ nepřekládané oblasti (5′-UTR) a 3′-UTR, částečné kódující oblasti a introny. Sekvence HTC, které jsou dokončeny a mají vysokou kvalitu, jsou přesunuty do příslušného oddělení GenBank pro organismy. Vydání GenBank 155 obsahovalo více než 441 000 sekvencí HTC o celkové délce přes 539 milionů bází. Jeden z projektů generujících data HTC je popsán v (8).

Celogenomová shotgun sekvence (WGS)

V GenBank se objevuje více než 80 miliard bází sekvence WGS jako soubory kontigů WGS, z nichž mnohé jsou opatřeny anotacemi a pocházejí z jednoho sekvenačního projektu. Těmto sekvencím jsou přidělena přístupová čísla sestávající ze čtyřpísmenného ID projektu, následovaného dvoumístným číslem verze a šestimístným ID kontigu. Přístupové číslo WGS „AAAA01072744“ je tedy přiděleno kontigovému číslu „072744“ první verze projektu „AAAA“. Projekty sekvenování WGS přispěly do GenBank více než 18 miliony kontigů, což představuje 64% nárůst za poslední rok. Tyto primární sekvence byly použity ke konstrukci přibližně 760 000 rozsáhlých sestav scaffoldů a chromozomů. K dispozici jsou kontigy projektů WGS pro H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces a více než 450 dalších organismů a environmentálních vzorků. Úplný seznam projektů WGS s odkazy na data naleznete na webové stránce autora.

Projekty WGS mohou být opatřeny poznámkami. Mnoho projektů genomů s nízkým pokrytím však anotaci neobsahuje. Vzhledem k tomu, že tyto projekty sekvencí jsou považovány za pracovní verze a nejsou úplné, nemusí být tyto anotace sledovány od jedné verze sestavy k druhé a měly by být považovány za předběžné.

Předkladatelé sekvencí WGS a genomových sekvencí obecně se vyzývají, aby používali novou sadu značek evidence ve tvaru „/experimental=text“ a „/inference=TYPE:text“, kde „TYPE“ je jeden z řady standardních typů inference a „text“ je tvořen strukturovaným textem. Tyto nové kvalifikátory nahrazují „evidence=experimental“ a „evidence=non-experimental“, které již nejsou podporovány.

Speciální typy záznamů

Third Party Annotation

Záznamy TPA (Third Party Annotation) podporují hlášení publikovaných anotací sekvencí jiným vědcem než původním předkladatelem primárního záznamu sekvence v DDBJ/EMBL/GenBank. Záznamy TPA spadají do jedné ze dvou kategorií: „experimentální“, kdy existuje přímý experimentální důkaz existence anotované molekuly, a „inferenční“, kdy je experimentální důkaz nepřímý. Sekvence TPA lze vytvořit sestavením několika primárních sekvencí. Formát záznamu TPA (např. BK000016) je podobný formátu běžného záznamu GenBank, ale obsahuje označení „TPA:“ na začátku každého řádku definice a klíčová slova „Third Party Annotation; TPA“ v poli Keywords. V poli Comment záznamů TPA jsou uvedeny primární sekvence použité k sestavení sekvence TPA; v poli Primary jsou uvedeny rozsahy bází primárních sekvencí, které přispívají k sekvenci TPA.

Ve verzi GenBank 155 je obsaženo více než 5000 záznamů TPA, včetně více než 2170 pro Drosophila melanogaster, 950 pro H.sapiens, 330 pro O.sativa a 290 pro M.musculus. Sekvence TPA nejsou zveřejňovány, dokud se jejich přístupová čísla nebo sekvenční údaje a anotace neobjeví v recenzovaném biologickém časopise. Sekvence TPA lze do GenBank zasílat pomocí nástroje BankIt nebo Sequin. Další informace o TPA naleznete na webové stránce autora.

Záznamy GenBank CON pro sestavy menších záznamů

Ačkoli mnoho genomů, například bakteriální genomy, je v GenBank zastoupeno jako jednotlivé sekvence, je z hlediska přenosu dat a analýzy žádoucí rozdělit některé velmi dlouhé sekvence, například části eukaryotických genomů, na menší segmenty. V těchto případech se vytvářejí záznamy o rozdělení CON pro celou sekvenci, které obsahují instrukce pro sestavení, aby bylo možné bezproblémové zobrazení a stažení celé sekvence. Mnoho záznamů CON obsahuje také anotace.

VYBUDOVÁNÍ DATABÁZE

Sekvence a biologické anotace v GenBank a spolupracujících databázích EMBL a DDBJ zasílají do jedné ze tří databází především jednotliví autoři nebo sekvenační centra jako dávky sekvencí EST, STS, GSS, HTC, WGS nebo HTG. Informace jsou denně vyměňovány s DDBJ a EMBL, takže denní aktualizace ze serverů NCBI zahrnují nejnovější dostupné údaje o sekvencích ze všech zdrojů.

Přímé elektronické podání

V podstatě všechny záznamy vstupují do GenBank jako přímé elektronické podání (Author Webpage), přičemž většina autorů používá programy BankIt nebo Sequin. Mnoho časopisů vyžaduje, aby autoři se sekvenčními údaji předložili data do veřejné databáze jako podmínku publikace.

Pracovníci GenBank mohou obvykle přiřadit přístupové číslo předložené sekvenci do dvou pracovních dnů od jejího přijetí, a to rychlostí téměř 1600 za den. Přístupové číslo slouží jako potvrzení, že sekvence byla předložena, a umožňuje čtenářům článků, v nichž je sekvence citována, vyhledat údaje. Přímo předložené sekvence procházejí kontrolou zajištění kvality, která zahrnuje kontrolu kontaminace vektorů, správného překladu kódujících oblastí, správné taxonomie a správných bibliografických citací. Návrh záznamu GenBank je před vstupem do databáze předán zpět autorovi ke kontrole. Autoři mohou požádat o zachování důvěrnosti svých sekvencí až do okamžiku zveřejnění. Vzhledem k tomu, že politika GenBank vyžaduje, aby byla uložená sekvenční data zveřejněna po zveřejnění sekvence nebo přístupového čísla, jsou autoři poučeni, aby informovali pracovníky GenBank o datu zveřejnění článku, v němž je sekvence citována, aby bylo zajištěno včasné zveřejnění dat. Přestože sekvenční data nebo anotace smí upravovat pouze předkládající vědec, všichni uživatelé se vyzývají, aby GenBank hlásili zpoždění ve zveřejňování dat nebo případné chyby či opomenutí na adresu [email protected].

NCBI úzce spolupracuje se sekvenačními centry, aby zajistila včasné začlenění hromadných dat do GenBank za účelem jejich zveřejnění. GenBank nabízí speciální dávkové postupy pro rozsáhlé sekvenační skupiny, které usnadňují předkládání dat, včetně programu „tbl2asn“, popsaného na webové stránce autora.

Předkládání pomocí BankIt

Přibližně třetina autorských podání je přijímána prostřednictvím webového nástroje NCBI pro předkládání dat, BankIt (webová stránka autora). Pomocí nástroje BankIt mohou autoři zadávat informace o sekvenci přímo do formuláře a přidávat biologické anotace, jako jsou kódující oblasti nebo vlastnosti mRNA. Textová pole volného tvaru, seznamová pole a rozbalovací nabídky umožňují zadavateli sekvenci dále popsat, aniž by se musel učit pravidla formátování nebo omezené slovníky. BankIt ověřuje předložené údaje, označuje mnoho běžných chyb a kontroluje kontaminaci vektorů pomocí varianty BLAST nazvané Vecscreen, než vytvoří návrh záznamu ve formátu plochého souboru GenBank, který si předkladatel může prohlédnout. BankIt je nástrojem volby pro jednoduchá podání, zejména pokud má být předložen pouze jeden záznam nebo malý počet záznamů (7). BankIt mohou předkladatelé použít také k aktualizaci svých stávajících záznamů v GenBank.

Předkládání pomocí programu Sequin a tbl2asn

NCBI nabízí také samostatný multiplatformní program pro předkládání záznamů s názvem Sequin (Author Webpage), který lze používat interaktivně s dalšími nástroji NCBI pro vyhledávání a analýzu sekvencí. Sequin si poradí s jednoduchými sekvencemi, jako je cDNA, i se segmentovanými záznamy, fylogenetickými studiemi, populačními studiemi, mutačními studiemi, environmentálními vzorky a zarovnáními, pro které nejsou BankIt a jiné webové nástroje pro předkládání dobře uzpůsobeny. Sequin má pohodlné možnosti editace a komplexní anotace a obsahuje řadu vestavěných validačních funkcí pro zajištění kvality. Kromě toho je Sequin schopen pojmout velké sekvence, jako je sekvence genomu Escherichia coli o velikosti 5,6 Mb, a načíst kompletní anotace prostřednictvím jednoduchých tabulek. Verze pro počítače Macintosh, PC a Unix jsou k dispozici prostřednictvím anonymního FTP na adrese (webová stránka autora) v adresáři „sequin“. Po dokončení předložení mohou předkladatelé zaslat soubor Sequin e-mailem na adresu ([email protected]).

Předkladatelé rozsáhlých, silně anotovaných genomů mohou považovat za vhodné použít program ‚tbl2asn‘, na který je odkazováno výše v části ‚Přímé předložení‘, k převodu tabulky anotací vytvořené pomocí anotační pipeline na ASN.1

Předkládání sekvencí čárových kódů

Konzorcium pro čárový kód života (CBOL) je mezinárodní iniciativa pro vývoj čárového kódu DNA jako nástroje pro charakterizaci druhů organismů pomocí krátké sekvence DNA odvozené z části genu pro podjednotku I cytochromoxidázy. NCBI ve spolupráci s CBOL (webová stránka autora) vytvořila online nástroj pro hromadné odesílání sekvencí čárových kódů do GenBank (webová stránka autora), který umožňuje uživatelům nahrávat soubory obsahující dávku sekvencí s přidruženými zdrojovými informacemi. Předpokládá se, že tento nástroj bude v blízké budoucnosti používán i pro další typy hromadných podání.

Identifikátory sekvencí a přístupová čísla

Každému záznamu GenBank, který se skládá jak ze sekvence, tak z jejích anotací, je přiřazen jedinečný identifikátor, přístupové číslo, které je společné pro všechny tři spolupracující databáze (GenBank, DDBJ, EMBL) a zůstává konstantní po celou dobu existence záznamu, i když dojde ke změně sekvence nebo anotace. Každé verzi sekvence DNA v rámci záznamu GenBank je rovněž přiřazen jedinečný identifikátor NCBI, nazývaný „gi“, který se objevuje v řádku VERSION záznamů plochých souborů GenBank za přístupovým číslem. Třetí identifikátor ve tvaru „Accession.version“, který se rovněž zobrazuje na řádku VERSION záznamů plochých souborů, obsahuje informace obsažené v gi i přístupovém čísle. Záznam, který se v databázi objevuje poprvé, má identifikátor „Accession.version“ odpovídající ACCESSION číslu záznamu GenBank, za nímž následuje znak „.1“ označující první verzi sekvence pro daný záznam, např.

ACCESSION AF000001

VERSION AF000001.1 GI: 987654321

Při změně sekvence uvedené v záznamu GenBank je sekvenci přiděleno nové číslo gi a přípona verze identifikátoru „Accession.version“ je zvýšena. Přístupové číslo pro záznam jako celek zůstává nezměněno a starší sekvence zůstává k dispozici pod starým identifikátorem ‚Accession.version‘ a gi.

Podobný systém sleduje změny v příslušných překladech proteinů. Tyto identifikátory se objevují jako kvalifikátory pro vlastnosti CDS v části FEATURES záznamu v GenBank, např. /protein_id=’AAA00001.1′. Překlady proteinových sekvencí také dostávají své vlastní jedinečné číslo gi, které se objevuje jako druhý kvalifikátor u funkce CDS, např. /db_xref=‘ GI:1233445′.

Zajištění stabilního přístupu k sekvenčním datům

Stále populárnější je, že výzkumné skupiny sdílejí nové biologické sekvence a aktualizují stávající sekvence přímým zveřejněním dat na webu. To je sice pohodlný a efektivní způsob sdílení dat mezi skupinou spolupracovníků, ale pokud nejsou původní data a aktualizace zároveň odeslány do centrálního úložiště, vznikají tři významné problémy; může se zkrátit životnost přístupu k datům, nemusí být realizován úplný biologický kontext dat a stávající data v intenzivně využívaných centralizovaných databázích zastarají.

Efemérní povaha velké části obsahu na webu je součástí běžné zkušenosti uživatelů webu. Při jednom pokusu o kvantifikaci životnosti obsahu bylo 360 náhodně vybraných webových stránek sledováno po dobu 4 let a u souboru byl naměřen poločas rozpadu pouhé 2 roky (9). Ačkoli dobře udržovaná webová stránka může jistě přetrvat déle než 2 roky, relativně krátký poločas rozpadu uvedený pro tento soubor stránek odráží mnoho faktorů, které mohou zasáhnout a ovlivnit přístup k datům umístěným na webu.

I během přístupné doby životnosti sekvenčních dat umístěných na webu si však nelze uvědomit plný biologický kontext sekvence, pokud sekvenci nelze pohodlně porovnat s jinými – třeba získanými ze vzdáleně příbuzných organismů, které jsou mimo rozsah hostitelské webové stránky.

Pokud jsou navíc aktualizace sekvencí obsažených v centralizovaných databázích prováděny na webové stránce, ale nejsou provedeny také v odpovídajících záznamech v centrální databázi, novější data se nedostanou k širší výzkumné komunitě a velká část dopadu dat se ztratí.

Předkládání sekvenčních dat do centralizovaného úložiště, jako je GenBank, tyto tři problémy řeší. Výzkumní pracovníci mají zajištěn stabilní přístup k údajům prostřednictvím verzovaných dvouměsíčních vydání dostupných prostřednictvím FTP, rozhraní k jednotnému souboru údajů udržovaných NCBI i četnými rozhraními třetích stran a archivační redundance, kterou nabízí trojstranná spolupráce v rámci mezinárodních databází nukleotidových sekvencí. Spojení nových údajů s údaji ostatních výzkumníků z celého světa v rámci centrální databáze poskytuje široký biologický kontext, který stimuluje objevování – udržování každé sekvence v aktuálním stavu zvyšuje užitečnost všech sekvencí v databázi.

VYHLEDÁVÁNÍ ÚDAJŮ Z GENBANK

Systém Entrez

Záznamy o sekvencích v GenBank jsou přístupné prostřednictvím Entrez (Author Webpage), flexibilního systému pro vyhledávání dat, který zahrnuje více než 30 biologických databází. Ty zahrnují sekvence DNA a proteinů pocházející z GenBank a dalších zdrojů, mapy genomů, populační, fylogenetické a environmentální soubory sekvencí, údaje o genové expresi, taxonomii NCBI, informace o proteinových doménách, struktury proteinů z databáze molekulárního modelování, MMDB (10); každá databáze je propojena s vědeckou literaturou prostřednictvím PubMed a PubMed Central.

Vyhledávání sekvenční podobnosti metodouBLAST

Vyhledávání sekvenční podobnosti je nejzákladnějším a nejčastějším typem analýzy prováděné nad daty GenBank. NCBI nabízí rodinu programů BLAST (Author Webpage) pro zjišťování podobností mezi dotazovanou sekvencí a databázovými sekvencemi (11,12). Vyhledávání BLAST lze provádět na webových stránkách NCBI nebo prostřednictvím sady samostatných programů distribuovaných prostřednictvím FTP. O BLAST pojednává samostatný článek v tomto čísle (4).

Získávání GenBank pomocí FTP

NCBI distribuuje vydání GenBank v tradičním formátu plochých souborů a také ve formátu ASN.1 (Abstract Syntax Notation), který se používá pro interní údržbu. Kompletní dvouměsíční vydání GenBank a denní aktualizace, které zahrnují také sekvenční údaje z EMBL a DDBJ, jsou k dispozici prostřednictvím anonymního FTP z NCBI na adrese (webová stránka autora) a také ze zrcadlového webu na University of Indiana (webová stránka autora). Kompletní vydání ve formátu plochých souborů je k dispozici jako komprimované soubory v adresáři „genbank“, přičemž nekumulativní soubor aktualizací je obsažen v adresáři „daily-nc“. V adresáři ‚tools‘ na stránce GenBank FTP je k dispozici skript pro převod sady denních aktualizací na kumulativní aktualizaci.

POŠTOVNÍ ADRESA

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tel: +1 301 496 2475; Fax: +1 301 480 9241.

ELEKTRONICKÉ ADRESY

Domovská stránka NCBI: [email protected]

Předkládání sekvenčních údajů do GenBank: [email protected]

Revize nebo oznámení o zveřejnění „důvěrných“ záznamů v GenBank: [email protected]

Všeobecné informace o NCBI a službách: [email protected]

CITOVÁNÍ GenBank

Použijete-li databázi GenBank ve svém publikovaném výzkumu, žádáme vás, abyste tento článek citovali.

Financování úhrady poplatků za publikování tohoto článku v režimu Open Access poskytl National Institutes of Health.

Prohlášení o střetu zájmů. Žádný nebyl deklarován.

Benson

D.A.

Karsch-Mizrachi

Lipman

D.J.

Ostell

Wheeler

D.L.

GenBank

Nucleic Acids Res.

2006

, vol.

(str.

–

)

Cochrane

Aldebert

Althorpe

Andersson

Baker

Baldwin

Bates

Bhattacharyya

Browne

van denBroek

a další.

EMBL Nucleotide Sequence Database: developments in 2005

Nucleic Acids Res.

2006

, vol.

(str.

–

)

Okubo

Sugawara

Gojobori

Tateno

DDBJ při přípravě přehledu výzkumných aktivit za podání dat

Nucleic Acids Res.

2006

, roč.

(str.

–

)

Wheeler

D.L.

Barrett

Benson

D.A.

Bryant

S.H.

Canese

Chetvernin

Church

D.M.

DiCuccio

Edgar

Federhen

, et al.

Databázové zdroje Národního centra pro biotechnologické informace

Nucleic Acids Res.

2006

, vol.

(str.

173

–

180

)

Boguski

M.S.

Lowe

T.M.

Tolstošev

C.M.

dbEST-databáze pro ‚expressed sequence tags‘

Nature Genet.

1993

, vol.

(str.

332

–

333

)

Smith

M.W.

Holmsen

A.L.

Wei

Y.H.

Peterson

Evans

G.A.

Genomic sequence sampling: a strategy for high resolution sequence-based physical mapping of complex genomes

Nature Genet.

1994

, vol.

(str.

–

)

Kans

Ouellette

. ,

Bioinformatika: A Practical Guide to the Analysis of Genes and Proteins Chapter Submitting DNA Sequences to the Databases

2001

John Wiley and Sons, Inc.

(str.

–

)

Kawai

Shinagawa

Shibata

Yoshino

Itoh

Ishii

Arakawa

Hara

Fukunishi

Konno

a další.

Functional annotation of a full-length mouse cDNA collection

Nature

2001

, vol.

409

(str.

685

–

690

)

Koehler

Změna a přetrvávání webových stránek – čtyřletá longitudinální studie

J. Am. Soc. Inform. Sci. Technol.

2002

, vol.

(str.

162

–

171

)

Marchler-Bauer

Anderson

J.B.

Cherukuri

P.F.

DeWeese-Scott

Geer

L.Y.

Gwadz

Hurwitz

D.I.

Jackson

J.D.

, a další

CDD: a Conserved Domain Database for protein classification

Nucleic Acids Res.

2005

, vol.

(str.

192

–

196

)

Altschul

S.F.

Madden

T.L.

Schäffer

A.A.

Zhang

Miller

Lipman

D.J.

Gapped BLAST and PSI-BLAST: a new generation of protein database search programs

Nucleic Acids Res.

1997

, roč.

(str.

3389

–

3402

)

Zhang

Schäffer

A.A.

Miller

Madden

T.L.

Lipman

D.J.

Koonin

E.V.

Altschul

S.F.

Protein sequence similarity searches using patterns as seeds

Nucleic Acids Res.

1998

, vol.

(pg.

3986

–

3990

)

Abstract

ÚVOD

ORGANIZACE DATABÁZE

Taxonomie založená na sekvencích

Záznamy a rozdělení v GenBank

Tagy exprimovaných sekvencí

Sekvence s označením sekvence (STS), sekvence pro průzkum genomu (GSS) a sekvence environmentálních vzorků (ENV)

Vysokokapacitní genomické sekvence (HTC) a vysokokapacitní cDNA sekvence (HTC)

Celogenomová shotgun sekvence (WGS)

Speciální typy záznamů

Third Party Annotation

Záznamy GenBank CON pro sestavy menších záznamů

VYBUDOVÁNÍ DATABÁZE

Přímé elektronické podání

Předkládání pomocí BankIt

Předkládání pomocí programu Sequin a tbl2asn

Předkládání sekvencí čárových kódů

Identifikátory sekvencí a přístupová čísla

Zajištění stabilního přístupu k sekvenčním datům

VYHLEDÁVÁNÍ ÚDAJŮ Z GENBANK

Systém Entrez

Vyhledávání sekvenční podobnosti metodouBLAST

Získávání GenBank pomocí FTP

POŠTOVNÍ ADRESA

ELEKTRONICKÉ ADRESY

CITOVÁNÍ GenBank

Napsat komentář Zrušit odpověď na komentář