GenBank

Abstract

A GenBank (R) egy átfogó adatbázis, amely több mint 240 000 megnevezett organizmus nyilvánosan elérhető nukleotidszekvenciáit tartalmazza, amelyeket elsősorban az egyes laboratóriumok által benyújtott adatokból és a nagy szekvenálási projektekből származó tételes beadványokból nyertek. A legtöbb beadványt a webalapú BankIt vagy az önálló Sequin program segítségével nyújtják be, és a GenBank munkatársai a beérkezést követően hozzárendelik a hozzáférési számokat. Az európai EMBL Adatkönyvtárral és a japán DNS Adatbankkal folytatott napi adatcsere biztosítja a világméretű lefedettséget. A GenBank az NCBI Entrez nevű keresőrendszerén keresztül érhető el, amely integrálja a főbb DNS- és fehérjeszekvencia-adatbázisok adatait a taxonómiai, genom-, térképezési, fehérjeszerkezeti és doméninformációkkal, valamint a PubMed-en keresztül az orvosbiológiai folyóiratok irodalmával együtt. A BLAST szekvencia-hasonlósági keresést biztosít a GenBank és más szekvencia-adatbázisokban. A GenBank adatbázis teljes kéthavi kiadása és napi frissítése FTP-n keresztül érhető el. A GenBankhoz és a hozzá kapcsolódó keresési és elemzési szolgáltatásokhoz való hozzáférés az NCBI honlapjáról (Author Webpage) érhető el.

BEVEZETÉS

A GenBank (1) a nukleotidszekvenciák és a támogató bibliográfiai és biológiai megjegyzések átfogó nyilvános adatbázisa, amelyet a National Center for Biotechnology Information (NCBI), a National Library of Medicine (NLM) egyik részlege, az amerikai National Institutes of Health (NIH) Bethesdában (MD) található kampuszán épített és terjeszt.

Az NCBI a GenBankot elsősorban a szerzők által benyújtott szekvenciaadatokból, valamint a szekvenáló központokból származó expresszált szekvencia tag (EST), genom survey sequence (GSS) és egyéb nagy áteresztőképességű adatok tömeges benyújtásából építi fel. Az Egyesült Államok Szabadalmi és Védjegyhivatala szintén hozzájárul a kiadott szabadalmakból származó szekvenciákhoz. A GenBank, az európai EMBL Data Library (2 ) és a japán DNS Adatbank (DDBJ) (3 ) alkotja a nemzetközi nukleotidszekvencia-adatbázisokat, és tagjai egy hosszú ideje tartó együttműködésnek, amelyben naponta cserélnek információt a szekvenciainformációk egységes és átfogó gyűjteményének biztosítása érdekében. Az NCBI a GenBank-adatokat ingyenesen teszi elérhetővé az interneten, FTP-n keresztül, valamint a GenBank-adatokon működő, webalapú keresési és elemzési szolgáltatások széles skáláján keresztül (4).

Az ADATBANK ORGANIZÁCIÓJA

A GenBank mérete a kezdetektől fogva körülbelül 18 havonta megduplázódott. Jelenleg több mint 65 milliárd nukleotidbázist tartalmaz több mint 61 millió egyedi szekvenciából, és az elmúlt évben 15 millió új szekvenciával bővült. A teljes genom shotgun (WGS) projektekből származó hozzájárulások kiegészítik a hagyományos részlegek adatait, így a teljes adatállomány meghaladja a 145 milliárd bázist. A teljes genomok (Author Webpage) továbbra is az adatbázis növekvő részét képezik, a GenBankban található több mint 370 teljes mikrobiális genomból több mint 120-at helyeztek letétbe az elmúlt évben. Az eukarióta genomok száma, amelyek lefedettsége és összeállítása jelentős, szintén tovább növekszik: jelenleg több mint 104 összeállítás áll rendelkezésre, beleértve a referencia emberi genomét is.

Szekvencia-alapú taxonómia

Az adatbázis szekvenciáit az NCBI által az EMBL-lel és a DDBJ-vel együttműködésben, valamint külső tanácsadók és kurátorok értékes segítségével kifejlesztett átfogó szekvencia-alapú taxonómia (Author Webpage) segítségével osztályozzák és lekérdezhetők. A GenBankban több mint 240 000 megnevezett faj van jelen, és havonta több mint 2900 új fajjal bővül. A GenBankban található szekvenciák mintegy 16%-a emberi eredetű, és az összes szekvencia 13%-a emberi EST. A Homo sapiens után a GenBankban a bázisok számát tekintve a Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis és Canis familiaris fajok állnak az első helyen.

GenBank rekordok és osztályok

Minden GenBank-bejegyzés tartalmazza a szekvencia tömör leírását, a forrásszervezet tudományos nevét és taxonómiáját, bibliográfiai hivatkozásokat, valamint a biológiai jelentőségű területeket, például a kódoló régiókat és azok fehérjefordításait, az átírási egységeket, az ismétlődő régiókat és a mutációk vagy módosítások helyeit felsoroló jellemzőket tartalmazó táblázatot (Author Webpage).

A GenBank disztribúcióban található fájlokat hagyományosan “divíziókra” osztották, amelyek nagyjából megfelelnek az olyan rendszertani csoportoknak, mint a baktériumok (BCT), vírusok (VRL), főemlősök (PRI) és rágcsálók (ROD). Az utóbbi években a szekvenálási stratégiák támogatása érdekében további felosztásokat vezettek be. Az utóbbi években az egyes szekvenálási stratégiák támogatása érdekében további osztályok kerültek bevezetésre. Ezek közé tartoznak az EST (expressed sequence tag), a GSS (genom survey), a HTG (high throughput genomic), a HTC (high throughput cDNS) és az ENV (environmental sample) szekvenciák osztályai, így összesen 18 osztály van. A fájlátvitel megkönnyítése érdekében a nagyobb részlegek, mint például az EST és a PRI, több fájlra vannak felosztva a kéthavonta megjelenő GenBank kiadványok számára az NCBI FTP-oldalán.

Expressed sequence tags

Az EST-k továbbra is az új szekvenciarekordok és génszekvenciák fő forrása, a GenBank 155. kiadásában több mint 21 milliárd nukleotidbázist tartalmaznak. Az elmúlt év során az EST-k száma több mint 40%-kal nőtt, és összesen 38,3 millió szekvenciát tartalmaz, amelyek több mint 1200 különböző organizmust képviselnek. Az EST-részlegben legjobban képviselt szervezetek a következők: H.sapiens (7,8 millió rekord), M.musculus (4,7 millió rekord), O.sativa (1,2 millió rekord), Z.mays (1,1 millió rekord), B.taurus (1,1 millió rekord) és D.rerio (1,1 millió rekord). A GenBank EST-adatok napi szintű feldolgozásának részeként az NCBI BLAST keresésekkel azonosítja az új EST-szekvenciák összes homológiáját, és ezeket az információkat beépíti a kísérő adatbázisba, a dbEST-be (szerzői weboldal) (5). A dbEST adatai további feldolgozásra kerülnek a több mint 1,2 millió génorientált szekvencia-klasztert tartalmazó UniGene adatbázis (Author Webpage) létrehozásához, amely több mint 70 élőlényt képvisel, és amelyet részletesebben a (4) ismertet.

Sequence-tagged sites (STS), genom survey sequences (GSS) és environmental sample sequences (ENV)

A GenBank STS részlege (Author Webpage) több mint 883 000 szekvenciát tartalmaz, beleértve a genomszekvencián alapuló anonim STS-eket, valamint a gének és EST-k 3′ végéből származó génalapú STS-eket. Ezek az STS rekordok általában térképezési információkat is tartalmaznak.

A GenBank GSS részlege (Author Webpage) az elmúlt évben 22%-kal nőtt, és több mint 600 szervezetre vonatkozóan összesen 14,9 millió rekordot tartalmaz, és több mint 9,4 milliárd nukleotidbázist tartalmaz. A GSS rekordok túlnyomórészt a különböző genomszekvenálási projektekben használt bakteriális mesterséges kromoszómákból (“BAC-ok”) származó egyedi leolvasások. A GSS-osztályban a legjobban reprezentált fajok a Z.mays (2,0 millió rekord), a M.musculus (1,5 millió rekord), a H.sapiens (970 000 rekord) és a C.familiaris (854 000 rekord). A humán GSS rekordokat az STS rekordokkal együtt használták fel a humán genomprojekt (6) BAC-jainak csempézéséhez (Author Webpage).

A GenBank ENV részlege a környezeti mintavételi módszerekkel nyert nem-WGS szekvenciákat tartalmazza, amelyeknél a forrásszervezet ismeretlen. Az ENV osztályba tartozó rekordok az “ENV” szót tartalmazzák a kulcsszó mezőben, és a “/environmental_sample” minősítőt használják a forrás jellemzőben. A GenBank 155. kiadásának időpontjában a GenBank ENV részlege több mint 275 000 szekvenciát tartalmazott, amelyek 236 millió bázispárból állnak, és több mint 4900 tanulmányt képviselnek.

Nagy áteresztőképességű genomikai (HTC) és nagy áteresztőképességű cDNS (HTC) szekvenciák

A GenBank HTG részlege (Author Webpage) befejezetlen nagy genomikai rekordokat tartalmaz, amelyek a befejezett állapotba való átmenet alatt állnak (7). Ezeket a rekordokat az adatok minőségétől függően 0-3. fázisnak nevezik. A 3. fázis, azaz a kész állapot elérésekor a HTG rekordok a GenBank megfelelő organizmus részlegébe kerülnek. A GenBank 155. kiadásakor a HTG részleg 15,9 milliárd bázispár szekvenciát tartalmazott, ami közel 3 milliárd bázissal több az elmúlt évhez képest.

A GenBank HTC részlege a HTC szekvenciákat tartalmazza. A HTC-k vázlatos minőségűek, de tartalmazhatnak 5′-untranszlált régiókat (5′-UTR) és 3′-UTR-eket, részleges kódoló régiókat és intronokat. A kész és jó minőségű HTC-szekvenciákat a megfelelő szervezet GenBank részlegébe helyezik át. A GenBank 155. kiadása több mint 441 000 HTC-szekvenciát tartalmazott, összesen több mint 539 millió bázist. Egy HTC-adatokat generáló projektet a (8) ismertet.

Whole genome shotgun sequence (WGS)

A GenBankban több mint 80 milliárd bázisnyi WGS-szekvencia jelenik meg egyetlen szekvenálási projektből származó, sokszor annotációval ellátott WGS-kontigok halmazaként. Ezek a szekvenciák olyan hozzáférési számokat kapnak, amelyek egy négybetűs projekt azonosítóból, majd egy kétjegyű verziószámból és egy hatjegyű contig azonosítóból állnak. Így az “AAAA01072744” WGS csatlakozási számot az “AAAA” projekt első verziójának “072744” kontigszámához rendelték. A WGS-szekvenálási projektek több mint 18 millió kontigot adtak a GenBankhoz, ami 64%-os növekedést jelent az elmúlt évben. Ezekből az elsődleges szekvenciákból mintegy 760 000 nagyméretű váz- és kromoszóma-összeállítás készült. A WGS-projektek kontigjai a H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces és több mint 450 egyéb szervezet és környezeti minta esetében állnak rendelkezésre. A WGS-projektek teljes listáját az adatokra mutató linkekkel lásd a szerzői weboldalon.

A WGS-projektek annotálhatók. Számos alacsony lefedettségű genomprojekt azonban nem tartalmaz annotációt. Mivel ezek a szekvenciaprojektek vázlatnak és nem teljesnek tekinthetők, ezeket az annotációkat nem lehet nyomon követni egyik assembly verzióról a másikra, és előzetesnek kell tekinteni.

A WGS-szekvenciák és általában a genomszekvenciák beküldőit arra ösztönzik, hogy a “/experimental=text” és “/inference=TYPE:text” formájú új evidenciacímkéket használják, ahol a “TYPE” a számos standard következtetési típus egyikét jelenti, a “text” pedig strukturált szövegből áll. Ezek az új minősítők a már nem támogatott “evidence=experimental” és “evidence=non-experimental” kifejezéseket váltják fel.

Speciális rekordtípusok

Third Party Annotation

A Third Party Annotation (TPA) rekordok a DDBJ/EMBL/GenBankban az elsődleges szekvencia rekord eredeti benyújtójától eltérő tudós által publikált szekvencia annotáció jelentését támogatják. A TPA rekordok két kategóriába sorolhatók: “kísérleti”, amikor közvetlen kísérleti bizonyíték van az annotált molekula létezésére, és “következtetés”, amikor a kísérleti bizonyíték közvetett. A TPA-szekvenciák több elsődleges szekvencia összeállításával hozhatók létre. A TPA rekordok (pl. BK000016) formátuma hasonló a hagyományos GenBank rekordokéhoz, de minden Definition Line elején a “TPA:” feliratot, a Keywords mezőben pedig a “Third Party Annotation; TPA” kulcsszavakat tartalmazza. A TPA rekordok Comment mezője felsorolja a TPA szekvencia összeállításához használt elsődleges szekvenciákat; az Primary mező a TPA szekvenciához hozzájáruló elsődleges szekvenciák bázistartományait adja meg.

A GenBank 155. kiadásában több mint 5000 TPA rekord található, köztük több mint 2170 a Drosophila melanogaster, 950 a H.sapiens, 330 az O.sativa és 290 a M.musculus esetében. A TPA-szekvenciákat addig nem hozzák nyilvánosságra, amíg a hozzáférési számuk vagy a szekvenciaadatok és a megjegyzések meg nem jelennek egy lektorált biológiai folyóiratban. A TPA szekvenciákat a GenBankba a BankIt vagy a Sequin segítségével lehet benyújtani. A TPA-val kapcsolatos további információkért lásd a szerzői weboldalt.

GenBank CON rekordok kisebb rekordok összeállításához

Noha sok genom, például a bakteriális genomok, egyetlen szekvenciaként szerepelnek a GenBankban, az adatátvitel és elemzés szempontjából kívánatos néhány nagyon hosszú szekvencia, például az eukarióta genomok egyes részeinek kisebb szegmensekre bontása. Ezekben az esetekben a teljes szekvenciára CON felosztási rekordok készülnek, amelyek tartalmazzák az összerakási utasításokat, hogy lehetővé tegyék a teljes szekvencia zökkenőmentes megjelenítését és letöltését. Sok CON rekord tartalmaz annotációkat is.

A DATABÁZIS ÉPÍTÉSE

A GenBankban, valamint az EMBL és DDBJ együttműködő adatbázisokban található szekvenciákat és biológiai annotációkat elsősorban egyéni szerzők nyújtják be a három adatbázis valamelyikébe, vagy a szekvenáló központok EST, STS, GSS, HTC, WGS vagy HTG szekvenciák kötegeiként. A DDBJ-vel és az EMBL-lel naponta történik információcsere, így az NCBI szervereinek napi frissítései minden forrásból a legfrissebb szekvenciaadatokat tartalmazzák.

Direkt elektronikus benyújtás

Nagyjából minden rekord közvetlen elektronikus benyújtásként (Author Webpage) kerül a GenBankba, a szerzők többsége a BankIt vagy Sequin programokat használja. Sok folyóirat megköveteli a szekvenciaadatokkal rendelkező szerzőktől, hogy a publikálás feltételeként az adatokat egy nyilvános adatbázisba küldjék be.

A GenBank munkatársai általában a beérkezéstől számított két munkanapon belül hozzárendelhetik a szekvenciaadatokhoz a hozzáférési számot, és ezt naponta közel 1600-an teszik meg. A csatlakozási szám megerősíti, hogy a szekvenciát benyújtották, és lehetővé teszi, hogy a szekvenciát idéző cikkek olvasói visszakereshessék az adatokat. A közvetlenül benyújtott szekvenciák minőségbiztosítási felülvizsgálatban részesülnek, amely magában foglalja a vektorszennyezés, a kódoló régiók megfelelő fordítása, a helyes taxonómia és a helyes bibliográfiai hivatkozások ellenőrzését. A GenBank-rekord tervezetét a szerző visszakapja felülvizsgálatra, mielőtt az bekerül az adatbázisba. A szerzők kérhetik, hogy szekvenciáikat a publikálásig bizalmasan kezeljék. Mivel a GenBank szabályzata előírja, hogy a letétbe helyezett szekvenciaadatokat akkor hozzák nyilvánosságra, amikor a szekvencia- vagy csatlakozási számot közzéteszik, a szerzőket arra utasítják, hogy tájékoztassák a GenBank munkatársait annak a cikknek a megjelenési dátumáról, amelyben a szekvenciát idézik, annak érdekében, hogy biztosítsák az adatok időben történő közzétételét. Bár a szekvenciaadatok vagy megjegyzések módosítására csak a benyújtó tudós jogosult, minden felhasználót arra ösztönöznek, hogy az adatok közzétételében mutatkozó késedelmeket vagy esetleges hibákat vagy kihagyásokat jelezze a GenBanknak a [email protected] címen.

Az NCBI szorosan együttműködik a szekvenáló központokkal annak érdekében, hogy a tömeges adatok időben bekerüljenek a GenBankba a nyilvánosságra hozatal céljából. A GenBank speciális kötegelt eljárásokat kínál a nagy szekvenáló csoportok számára az adatok benyújtásának megkönnyítésére, beleértve a “tbl2asn” programot, amelyet a szerzői weboldalon ismertetünk.

BankIt használatával történő benyújtás

A szerzői beadványok körülbelül egyharmada az NCBI webalapú adatbeadási eszközén, a BankIt-en keresztül érkezik (szerzői weboldal). A BankIt segítségével a szerzők közvetlenül egy űrlapra írják be a szekvenciainformációkat, és biológiai megjegyzéseket, például kódoló régiókat vagy mRNS-jellemzőket adnak hozzá. A szabadon formázható szövegdobozok, listadobozok és lehúzható menük lehetővé teszik a benyújtó számára a szekvencia további leírását anélkül, hogy formázási szabályokat vagy korlátozott szókincset kellene megtanulnia. A BankIt validálja a beadványokat, számos gyakori hibát megjelölve, és a BLAST egy Vecscreen nevű változatával ellenőrzi a vektorszennyeződést, mielőtt létrehoz egy GenBank flat file formátumú rekordtervezetet, amelyet a beadó felülvizsgálhat. A BankIt a legmegfelelőbb eszköz az egyszerű beadványok benyújtásához, különösen akkor, ha csak egy vagy kevés rekordot kell benyújtani (7). A BankIt-et a benyújtók a meglévő GenBank rekordjaik frissítésére is használhatják.

Submission using Sequin and tbl2asn

A NCBI egy önálló, többplatformos benyújtó programot is kínál Sequin néven (Author Webpage), amely interaktív módon használható más NCBI szekvencia-keresési és elemzési eszközökkel. A Sequin egyszerű szekvenciákat, például egy cDNS-t, valamint szegmentált bejegyzéseket, filogenetikai vizsgálatokat, populációvizsgálatokat, mutációs vizsgálatokat, környezeti mintákat és illesztéseket kezel, amelyekhez a BankIt és más webalapú benyújtási eszközök nem alkalmasak. A Sequin kényelmes szerkesztési és komplex annotációs képességekkel rendelkezik, és számos beépített validációs funkciót tartalmaz a minőségbiztosításhoz. Ezenkívül a Sequin képes nagy szekvenciák, például az Escherichia coli 5,6 Mb-os genomjának befogadására és az annotációk teljes körű beolvasására egyszerű táblázatokon keresztül. A Macintosh, PC és Unix számítógépekre készült verziók anonim FTP-n keresztül elérhetők a (szerzői weboldalon) a “sequin” könyvtárban. A benyújtás befejezése után a benyújtók a Sequin fájlt e-mailben elküldhetik a ([email protected]) címre.

A nagy, erősen annotált genomok benyújtói számára kényelmes lehet a “tbl2asn” használata, amelyre fentebb a “Direct submission”-nél hivatkoztunk, hogy az annotációs csővezetékkel létrehozott annotációs táblázatot ASN.1 formátumúvá alakítsák. rekorddá, amely alkalmas a GenBankba való benyújtásra.

Sztrakkódszekvenciák benyújtása

A Consortium for the Barcode of Life (CBOL) egy nemzetközi kezdeményezés a DNS-strakkódolás, mint az élőlényfajok jellemzésére szolgáló eszköz kifejlesztésére a citokróm-oxidáz I. alegység gén egy részéből származó rövid DNS-szekvencia segítségével. Az NCBI a CBOL-lal együttműködve (Author Webpage) létrehozott egy online eszközt a vonalkódszekvenciák GenBankba történő tömeges benyújtásához (Author Webpage), amely lehetővé teszi a felhasználók számára, hogy feltöltsenek egy köteg szekvenciát tartalmazó fájlokat a kapcsolódó forrásadatokkal együtt. Ezt az eszközt a közeljövőben várhatóan más típusú tömeges beküldésekhez is használni fogják.

Sorozatazonosítók és hozzáférési számok

Minden GenBank rekordhoz, amely egy szekvenciából és a hozzá tartozó megjegyzésekből áll, egyedi azonosítót, a hozzáférési számot rendelik, amely a három együttműködő adatbázisban (GenBank, DDBJ, EMBL) közös, és a rekord élettartama alatt állandó marad, még akkor is, ha a szekvencia vagy a megjegyzések megváltoznak. A GenBank rekordon belül a DNS-szekvencia minden egyes változatához egy egyedi NCBI azonosító, úgynevezett “gi” is tartozik, amely a GenBank flatfile rekordok VERSION sorában jelenik meg a csatlakozási szám után. Egy harmadik, “Accession.version” formájú azonosító, amely szintén a flatfile rekordok VERSION sorában jelenik meg, tartalmazza mind a gi, mind a csatlakozási számban szereplő információkat. Az adatbázisban először megjelenő bejegyzés “Accession.version” azonosítója megegyezik a GenBank rekord ACCESSION számával, amelyet “.1” követ a szekvencia első verziójának jelölésére, például.

ACCESSION AF000001

VERSION AF000001.1 GI: 987654321

Amikor egy GenBank rekordban megadott szekvenciában változás történik, a szekvenciához új gi számot adunk ki, és az “Accession.version” azonosító verzió kiterjesztését növeljük. A rekord egészének csatlakozási száma változatlan marad, és a régebbi szekvencia továbbra is elérhető marad a régi “Accession.version” azonosító és gi alatt.

Egy hasonló rendszer követi a megfelelő fehérjefordítások változásait. Ezek az azonosítók a GenBank-bejegyzés FEATURES részében a CDS-jellemzők minősítőjeként jelennek meg, pl. /protein_id=’AAA00001.1′. A fehérje szekvencia fordítások is kapnak egy saját egyedi gi számot, amely egy második minősítőként jelenik meg a CDS jellemzőn, pl. /db_xref=’ GI:1233445′.

A szekvencia adatokhoz való stabil hozzáférés biztosítása

A kutatócsoportok egyre népszerűbbé teszik az új biológiai szekvenciák megosztását és a meglévő szekvenciák frissítését az adatoknak a weben való közvetlen közzétételével. Bár ez kényelmes és hatékony módja az adatok megosztásának a munkatársak között, ha az eredeti adatokat és a frissítéseket nem küldik be egy központi adattárba is, három jelentős probléma merül fel: az adatok hozzáférési ideje csökkenhet, az adatok teljes biológiai kontextusa nem valósulhat meg, és az erősen használt központi adatbázisokban meglévő adatok elavulnak.

A webes tartalmak nagy részének efemer jellege része a webfelhasználók általános tapasztalatának. A tartalom élettartamának számszerűsítésére tett egyik kísérlet során 360 véletlenszerűen kiválasztott weboldalt követtek nyomon 4 éven keresztül, és mindössze 2 éves felezési időt mértek a készletre vonatkozóan (9). Bár egy jól karbantartott weboldal minden bizonnyal 2 évnél hosszabb ideig is fennmaradhat, az oldalak ezen halmazának viszonylag rövid felezési ideje tükrözi azt a sok tényezőt, amely befolyásolhatja a webre feltett adatokhoz való hozzáférést.

A webre feltett szekvenciaadatok hozzáférhető élettartama alatt is előfordulhat azonban, hogy egy szekvencia teljes biológiai kontextusa nem valósul meg, ha a szekvencia nem hasonlítható össze kényelmesen más – esetleg a fogadó weboldal hatókörén kívül eső, távolabbi rokon organizmusokból származó – szekvenciákkal.

Ezeken túlmenően, ha a központosított adatbázisokban található szekvenciák frissítése egy weboldalon történik, de nem történik meg a központi adatbázis megfelelő rekordjainak frissítése is, az újabb adatok nem jutnak el a szélesebb kutatóközösséghez, és az adatok hatásának nagy része elveszik.

A szekvenciaadatok benyújtása egy olyan központosított adattárba, mint a GenBank, megoldja ezt a három problémát. A kutatók számára az adatokhoz való stabil hozzáférést az FTP-n keresztül elérhető, kéthavonta megjelenő, verziószámozott kiadványok, az NCBI által karbantartott, valamint az egységes adatállományhoz számos harmadik féltől származó interfész, valamint a háromoldalú Nemzetközi Nukleotidszekvencia-adatbázisok együttműködés által biztosított archiválási redundancia biztosítja. Az új adatok összekapcsolása a világ más kutatóinak adataival egy központi adatbázisban széleskörű biológiai kontextust biztosít, amely serkenti a felfedezéseket – az egyes szekvenciák naprakészen tartása felnagyítja az adatbázisban található összes szekvencia hasznosságát.

A GenBank ADATOK KERESÉSE

Az Entrez rendszer

A GenBankban található szekvenciarekordok az Entrez (szerzői weboldal), egy rugalmas adatbázis-keresési rendszer segítségével érhetők el, amely több mint 30 biológiai adatbázist fed le. Ezek közé tartoznak a GenBankból és más forrásokból származó DNS- és fehérjeszekvenciák, genomtérképek, populációs, filogenetikai és környezeti szekvenciakészletek, génexpressziós adatok, az NCBI taxonómiája, fehérjetartomány-információk, fehérjeszerkezetek a Molecular Modeling Database, MMDB (10) adatbázisából; mindegyik adatbázis a PubMed és PubMed Central segítségével kapcsolódik a tudományos irodalomhoz.

BLAST szekvencia-hasonlósági keresés

A GenBank adatain végzett szekvencia-hasonlósági keresés a legalapvetőbb és leggyakoribb elemzéstípus. Az NCBI a BLAST (Author Webpage) programcsaládot kínálja a lekérdezett szekvencia és az adatbázis szekvenciái közötti hasonlóságok felderítésére (11,12). A BLAST kereséseket az NCBI weboldalán vagy FTP-n keresztül terjesztett önálló programcsomagon keresztül lehet elvégezni. A BLAST-ot külön cikk tárgyalja ebben a számban (4).

A GenBank FTP-n keresztül történő elérése

Az NCBI a GenBank kiadványokat hagyományos flat-file formátumban, valamint a belső karbantartáshoz használt ASN.1 (Abstract Syntax Notation) formátumban is terjeszti. A teljes kéthavonta megjelenő GenBank-kiadás és a napi frissítések, amelyek az EMBL és a DDBJ szekvenciaadatait is tartalmazzák, anonim FTP-n keresztül elérhetőek az NCBI-tól a következő címen (Szerzői weboldal), valamint az Indiana Egyetemen található tüköroldalról (Szerzői weboldal). A teljes kiadás flat-file formátumban tömörített fájlokban érhető el a “genbank” könyvtárban, a “daily-nc” könyvtárban található nem kumulatív frissítésekkel együtt. A GenBank FTP-oldalának “tools” könyvtárában található egy szkript a napi frissítések halmozott frissítéssé történő átalakításához.

POSTACÍM

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tel: +1 301 496 2475; Fax: +1 301 480 9241.

ELEKTRONIKUS CÍMEK

NCBI honlap: [email protected]

Szekvenciaadatok benyújtása a GenBankba: [email protected]

A GenBank “bizalmas” bejegyzéseihez kapcsolódó módosítások vagy azok közzétételéről szóló értesítés: [email protected]

Általános információk az NCBI-ről és szolgáltatásairól: [email protected]

CITING GenBank

Ha a GenBank adatbázist használja publikált kutatásában, kérjük, hogy hivatkozzon erre a cikkre.

A cikk Open Access publikációs díjának kifizetését a National Institutes of Health finanszírozta.

Erdekütközési nyilatkozat. Nincs bejelentett.

1

Benson
D.A.

,

Karsch-Mizrachi
I.

,

Lipman
D.J.

,

Ostell
J.

,

Wheeler
D.L.

.

GenBank

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

16

20

)

2

Cochrane
G.

,

Aldebert
P.

,

Althorpe
N.

,

Andersson
M.

,

Baker
W.

,

Baldwin
A.

,

Bates
K.

,

Bhattacharyya
S.

,

Browne
P.

,

van denBroek
A.

, et al.

EMBL Nucleotide Sequence Database: developments in 2005

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

10

15

)

3

Okubo
K.

,

Sugawara
H.

,

Gojobori
T.

,

Tateno
Y.

.

DDBJ előkészítésében az adatszolgáltatások mögött álló kutatási tevékenységek áttekintése

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

6

9

)

4

Wheeler
D.L.

,

Barrett
T.

,

Benson
D.A.

,

Bryant
S.H.

,

Canese
K.

,

Chetvernin
V.

,

Church
D.M.

,

DiCuccio
M.

,

Edgar
R.

,

Federhen
S.

, et al.

Database resources of the National Center for Biotechnology Information

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

173

180

)

5

Boguski
M.S.

,

Lowe
T.M.

,

Tolsztosev
C.M.

.

dbEST-database for ‘expressed sequence tags’

,

Nature Genet.

,

1993

, vol.

4

(pg.

332

333

)

6

Smith
M.W.

,

Holmsen
A.L.

,

Wei
Y.H.

,

Peterson
M.

,

Evans
G.A.

.

Genomic sequence sampling: a strategy for high resolution sequence-based physical mapping of complex genomes

,

Nature Genet.

,

1994

, vol.

7

(pg.

40

47

)

7

Kans
J.

,

Ouellette
B.

. ,

Bioinformatika: A Practical Guide to the Analysis of Genes and Proteins Chapter Submitting DNA Sequences to the Databases

,

2001
NY
John Wiley and Sons, Inc.

(pg.

65

81

)

8

Kawai
J.

,

Shinagawa
A.

,

Shibata
K.

,

Yoshino
M.

,

Itoh
M.

,

Ishii
Y.

,

Arakawa
T.

,

Hara
A.

,

Fukunishi
Y.

,

Konno
H.

, et al.

Functional annotation of a full-length mouse cDNS collection

,

Nature

,

2001

, vol.

409

(pg.

685

690

)

9

Koehler
W.

.

Weboldalak változása és fennmaradása – egy négyéves longitudinális vizsgálat

,

J. Am. Soc. Inform. Sci. Technol.

,

2002

, vol.

53

(pg.

162

171

)

10

Marchler-Bauer
A.

,

Anderson
J.B.

,

Cherukuri
P.F.

,

DeWeese-Scott
C.

,

Geer
L.Y.

,

Gwadz
M.

,

He
S.

,

Hurwitz
D.I.

,

Jackson
J.D.

,

Ke
Z.

, és mások

CDD: a Conserved Domain Database for protein classification

,

Nucleic Acids Res.

,

2005

, vol.

33

(pg.

192

196

)

11

Altschul
S.F.

,

Madden
T.L.

,

Schäffer
A.A.

,

Zhang
J.

,

Zhang
Z.

,

Miller
W.

,

Lipman
D.J.

.

Gapped BLAST és PSI-BLAST: a fehérje adatbázis kereső programok új generációja

,

Nucleic Acids Res.

,

1997

, vol.

25

(pg.

3389

3402

)

12

Zhang
Z.

,

Schäffer
A.A.

,

Miller
W.

,

Madden
T.L.

,

Lipman
D.J.

,

Koonin
E.V.

,

Altschul
S.F.

.

Protein sequence similarity searches using patterns as seeds

,

Nucleic Acids Res.

,

1998

, vol.

26

(pg.

3986

3990

)

.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.