GenBank

Abstract

GenBank (R) on kattava tietokanta, joka sisältää julkisesti saatavilla olevia nukleotidisekvenssejä yli 240 000 nimetylle organismille, jotka on saatu ensisijaisesti yksittäisten laboratorioiden lähettämistä aineistoista ja laajamittaisista sekvensointihankkeista. Useimmat toimitukset tehdään käyttäen verkkopohjaista BankIt- tai itsenäistä Sequin-ohjelmaa, ja GenBankin henkilökunta antaa liittymisnumerot niiden vastaanottamisen jälkeen. Päivittäinen tietojenvaihto Euroopan EMBL Data Libraryn ja Japanin DNA Data Bankin kanssa takaa maailmanlaajuisen kattavuuden. GenBankiin pääsee NCBI:n Entrez-hakujärjestelmän kautta, joka yhdistää tiedot tärkeimmistä DNA- ja proteiinisekvenssitietokannoista sekä taksonomia-, genomi-, kartoitus-, proteiinirakenne- ja domain-tiedot sekä PubMedin kautta saatavan biolääketieteellisen aikakauskirjallisuuden. BLAST tarjoaa sekvenssien samankaltaisuushakuja GenBankista ja muista sekvenssitietokannoista. GenBank-tietokannan täydelliset kaksikuukausijulkaisut ja päivittäiset päivitykset ovat saatavilla FTP:llä. GenBankiin ja siihen liittyviin haku- ja analyysipalveluihin pääsee käsiksi NCBI:n kotisivulta (Author Webpage).

YHTEENVETO

GenBank (1) on kattava julkinen tietokanta nukleotidisekvensseistä ja niitä tukevasta bibliografisesta ja biologisesta annotaatiosta, jonka on rakentanut ja jakanut Yhdysvaltain kansallisten terveysinstituuttien (National Institutes of Health, NIH) kampuksella Bethesdassa MD:ssä sijaitsevan National Library of Medicine (NLM) osastonsa National Center for Biotechnology Information (NCBI).

NCBI rakentaa GenBankin ensisijaisesti tekijöiden toimittamien sekvenssitietojen ja sekvensointikeskusten toimittamien EST-, GSS- ja muiden korkean läpimenotehon tietojen perusteella. Myös Yhdysvaltain patentti- ja tavaramerkkivirasto (US Office of Patents and Trademarks) toimittaa sekvenssejä myönnetyistä patenteista. GenBank, EMBL Data Library (2 ) Euroopassa ja DNA Databank of Japan (DDBJ) (3 ) muodostavat kansainväliset nukleotidisekvenssitietokannat, ja ne kuuluvat pitkäaikaiseen yhteistyöhön, jossa tietoja vaihdetaan päivittäin yhdenmukaisen ja kattavan sekvenssitietojen kokoelman varmistamiseksi. NCBI asettaa GenBank-tiedot maksutta saataville Internetin kautta, FTP:n kautta ja monenlaisten verkkopohjaisten haku- ja analyysipalvelujen kautta, jotka toimivat GenBank-tiedoilla (4).

Tietokannan organisointi

GenBankin koko on kaksinkertaistunut sen perustamisesta lähtien noin puolentoista vuoden välein. Se sisältää tällä hetkellä yli 65 miljardia nukleotidiemästä yli 61 miljoonaa yksittäistä sekvenssiä, ja viime vuonna siihen on lisätty 15 miljoonaa uutta sekvenssiä. WGS-hankkeista (whole genome shotgun) saadut tiedot täydentävät perinteisten osastojen tietoja, ja näin kokonaismäärä ylittää 145 miljardia emästä. Täydelliset genomit (Author Webpage) muodostavat edelleen kasvavan osan tietokannasta, sillä GenBankin yli 370 täydellisestä mikrobigenomista yli 120 on talletettu viime vuoden aikana. Myös niiden eukaryoottien genomien määrä, joiden kattavuus ja kokoaminen on merkittävää, kasvaa edelleen, ja nyt on saatavilla yli 104 kokoamista, mukaan lukien ihmisen referenssigenomin kokoaminen.

Sekvenssipohjainen taksonomia

Tietokannan sekvenssit luokitellaan ja niitä voidaan hakea käyttämällä kattavaa sekvenssipohjaista taksonomiaa (Author Webpage), jonka NCBI on kehittänyt yhteistyössä EMBL:n ja DDBJ:n kanssa ja ulkopuolisten neuvonantajien ja kuraattoreiden arvokkaalla avustuksella. GenBankissa on edustettuna yli 240 000 nimettyä lajia, ja uusia lajeja lisätään yli 2900 kuukaudessa. Noin 16 prosenttia GenBankin sekvensseistä on ihmisperäisiä, ja 13 prosenttia kaikista sekvensseistä on ihmisen EST-sekvenssejä. Homo sapiensin jälkeen GenBankin tärkeimmät lajit emäsmäärällä mitattuna ovat Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis ja Canis familiaris.

GenBankin tietueet ja jaostot

Jokaiseen GenBank-tietueeseen sisältyy lyhyt kuvaus sekvenssistä, lähdeorganismin tieteellinen nimi ja taksonomia, bibliografiset viitteet sekä ominaisuustaulukko (Author Webpage), jossa luetellaan biologisesti merkittävät alueet, kuten koodaavat alueet ja niiden proteiinikäännökset, transkriptioyksiköt, toistoalueet ja mutaatioiden tai modifikaatioiden paikat.

GenBank-jakelussa olevat tiedostot on perinteisesti jaettu ”divisiooniin”, jotka vastaavat suunnilleen taksonomisia ryhmiä, kuten bakteerit (BCT), virukset (VRL), kädelliset (PRI) ja jyrsijät (ROD). Viime vuosina jakoja on lisätty tukemaan erityisiä sekvensointistrategioita. Viime vuosina on lisätty jakoja tukemaan erityisiä sekvensointistrategioita. Näihin kuuluvat osastot ilmaistuja sekvenssitunnisteita (EST, expressed sequence tag), genomitutkimusta (GSS, genome survey), korkean läpivirtauksen genomitutkimusta (HTG, high throughput genomic), korkean läpivirtauksen cDNA-tutkimusta (HTC, high throughput cDNA) ja ympäristönäytteiden tutkimista (ENV, environmental sample) varten, yhteensä 18 osastoa. Tiedostonsiirron helpottamiseksi suuremmat osastot, kuten EST ja PRI, on jaettu useisiin tiedostoihin NCBI:n FTP-sivustolla joka toinen kuukausi julkaistavia GenBank-julkaisuja varten.

Expressed sequence tags

EST:t ovat edelleen merkittävä uusien sekvenssitietueiden ja geenisekvenssien lähde, ja ne käsittävät GenBank-julkaisussa 155 yli 21 miljardia nukleotidiemästä. Viimeisen vuoden aikana EST:ien määrä on kasvanut yli 40 % ja on nyt yhteensä 38,3 miljoonaa sekvenssiä, jotka edustavat yli 1200 eri organismia. Parhaiten EST-osastossa edustettuina ovat H.sapiens (7,8 miljoonaa tietuetta), M.musculus (4,7 miljoonaa tietuetta), O.sativa (1,2 miljoonaa tietuetta), Z.mays (1,1 miljoonaa tietuetta), B.taurus (1,1 miljoonaa tietuetta) ja D.rerio (1,1 miljoonaa tietuetta). Osana GenBankin EST-tietojen päivittäistä käsittelyä NCBI tunnistaa BLAST-hakujen avulla kaikki uusien EST-sekvenssien homologiat ja sisällyttää nämä tiedot dbEST-tietokantaan (Author Webpage) (5). dbESTin tietoja käsitellään edelleen, jotta saadaan aikaan UniGene-tietokanta (Author Webpage), joka sisältää yli 1,2 miljoonaa geenipainotteista sekvenssiklusteria, jotka edustavat yli 70 organismia, ja jota kuvataan tarkemmin (4).

Sequence-tagged sites (STS), genomitutkimussekvenssit (GSS) ja ympäristönäytesekvenssit (ENV)

GenBankin STS-osasto (Author Webpage) sisältää yli 883 000 sekvenssiä, mukaan lukien anonyymit STS:t, jotka perustuvat genomisekvensseihin, sekä geenipohjaiset STS:t, jotka on johdettu geenien ja EST:ien 3′ päistä. Nämä STS-tietueet sisältävät yleensä kartoitustietoa.

GenBankin GSS-osasto (Author Webpage) on kasvanut viime vuoden aikana 22 % ja sisältää yhteensä 14,9 miljoonaa tietuetta yli 600 organismista ja yli 9,4 miljardia nukleotidiemästä. GSS-tietueet ovat pääasiassa yksittäisiä lukuja bakteerien keinotekoisista kromosomeista (”BAC-päätteet”), joita käytetään erilaisissa genomin sekvensointihankkeissa. Eniten edustettuina olevat lajit GSS-alueella ovat Z.mays (2,0 miljoonaa tietuetta), M.musculus (1,5 miljoonaa tietuetta), H.sapiens (970 000 tietuetta) ja C.familiaris (854 000 tietuetta). Ihmisen GSS-tietueita on käytetty (Author Webpage) yhdessä STS-tietueiden kanssa BAC-tietueiden laatoituksessa ihmisen genomiprojektia varten (6).

GenBankin ENV-osastoon on sijoitettu muita kuin WGS-sekvenssejä, jotka on saatu ympäristönäytteenottomenetelmillä, joissa lähdeorganismi on tuntematon. ENV-osaston tietueet sisältävät ”ENV” avainsanakentässä ja käyttävät ”/environmental_sample”-ominaisuutta lähde-ominaisuudessa. GenBankin julkaisussa 155 GenBankin ENV-osasto sisälsi yli 275 000 sekvenssiä, jotka koostuvat 236 miljoonasta emäsparista ja edustavat yli 4900 tutkimusta.

High-throughput genomic (HTC) and high-throughput cDNA (HTC) sequences

GenBankin HTG-osasto (Author Webpage) sisältää keskeneräisiä suuren mittakaavan genomitietueita, jotka ovat siirtymässä valmiiseen tilaan (7). Nämä tietueet nimetään faasiksi 0-3 riippuen datan laadusta. Kun HTG-tietueet saavuttavat vaiheen 3 eli valmiin tilan, ne siirretään GenBankin asianmukaiseen organismijakoon. GenBankin julkaisussa 155 HTG-osasto sisälsi 15,9 miljardia emäsparia sekvenssejä, mikä merkitsee lähes 3 miljardin emäsparin lisäystä viime vuoteen verrattuna.

GenBankin HTC-osasto sisältää HTC-sekvenssejä. HTC-sekvenssit ovat luonnoslaatuisia, mutta ne voivat sisältää 5′-kääntämättömiä alueita (5′-UTR) ja 3′-UTR:iä, osittaisia koodaavia alueita ja introneja. Valmiit ja korkealaatuiset HTC-sekvenssit siirretään asianmukaiseen organismin GenBankin osastoon. GenBankin julkaisu 155 sisälsi yli 441 000 HTC-sekvenssiä, joiden kokonaismäärä on yli 539 miljoonaa emästä. Yksi HTC-dataa tuottava hanke on kuvattu osoitteessa (8).

Whole genome shotgun sequence (WGS)

Yli 80 miljardia emäspistettä WGS-sekvenssejä esiintyy GenBankissa yhdestä sekvensointihankkeesta peräisin olevina sarjoina WGS-kontigeja (contigs)

, joista moniin on liitetty annotaatioita. Näille sekvensseille annetaan liittymisnumerot, jotka koostuvat nelikirjaimisesta projektitunnuksesta, jota seuraa kaksinumeroinen versionumero ja kuusinumeroinen contig-tunnus. Näin ollen WGS-liittymisnumero ”AAAA01072744” annetaan projektin ”AAAA” ensimmäisen version contig-numerolle ”072744”. WGS-sekvensointihankkeet ovat toimittaneet GenBankiin yli 18 miljoonaa kontigia, mikä on 64 prosenttia enemmän kuin viime vuonna. Näitä primaarisekvenssejä on käytetty noin 760 000 suuren mittakaavan scaffold- ja kromosomikokoonpanon rakentamiseen. WGS-hankkeiden kontigit ovat saatavilla H.sapiensista, C.familiarisista, Pan trodlodytesista, Macacca mulattasta, Drosophilasta, Saccharomycesista ja yli 450 muusta organismista ja ympäristönäytteestä. Täydellinen luettelo WGS-projekteista ja linkit dataan löytyvät osoitteesta Author Webpage.

WGS-projekteja voidaan kommentoida. Monet vähän kattavat genomiprojektit eivät kuitenkaan sisällä annotaatiota. Koska näitä sekvenssiprojekteja pidetään luonnoksina ja keskeneräisinä, näitä annotaatioita ei välttämättä seurata assembly-versiosta toiseen, ja niitä on pidettävä alustavina.

WGS-sekvenssien ja yleensä genomisekvenssien lähettäjiä kehotetaan käyttämään uusia todisteiden tunnisteita, jotka ovat muotoa ’/experimental=text’ ja ’/inference=TYPE:text’, jossa ’TYPE’ on yksi useista vakiomuotoisista johtopäätöksentyyppien tyypeistä ja ’text’ muodostuu strukturoidusta tekstistä. Nämä uudet määritteet korvaavat ”evidence=experimental” ja ”evidence=non-experimental”, joita ei enää tueta.

Erikoistietuetyypit

Third Party Annotation

Third Party Annotation (TPA) -tietueet (TPA-tietueet) tukevat julkaistujen sekvenssi-annotaatioiden raportoimista, jotka on tehnyt joku muu tiedemies kuin primäärisen sekvenssi-tietueen alkuperäinen lähettäjä. TPA-tietueet voidaan jakaa kahteen luokkaan: ”kokeellinen”, jolloin annotoidun molekyylin olemassaolosta on suoraa kokeellista näyttöä, ja ”päätelmällinen”, jolloin kokeellinen näyttö on epäsuoraa. TPA-sekvenssejä voidaan luoda kokoamalla useita primaarisekvenssejä. TPA-tietueen (esim. BK000016) muoto on samanlainen kuin tavanomaisen GenBank-tietueen, mutta se sisältää merkinnän ”TPA:” jokaisen määrittelyrivin alussa ja avainsanat ”Third Party Annotation; TPA” Keywords-kentässä. TPA-tietueiden Comment-kentässä luetellaan TPA-sekvenssin kokoamiseen käytetyt primaarisekvenssit; Primary-kentässä ilmoitetaan TPA-sekvenssiin osallistuvien primaarisekvenssien emäsalueet.

GenBankin julkaisussa 155 on yli 5000 TPA-tietuetta, joista yli 2170 koskee Drosophila melanogasteria, 950 H.sapiensia, 330 O.sativaa ja 290 M.musculusta. TPA-sekvenssejä ei julkaista yleisölle ennen kuin niiden viitenumerot tai sekvenssitiedot ja merkinnät julkaistaan vertaisarvioidussa biologisessa lehdessä. TPA-sekvenssit voidaan toimittaa GenBankiin joko BankIt- tai Sequin-ohjelmalla. Lisätietoja TPA:sta on osoitteessa Author Webpage.

GenBank CON-tietueet pienempien tietueiden kokoonpanoja varten

Vaikka monet genomit, kuten bakteerien genomit, ovat GenBankissa edustettuina yksittäisinä sekvensseinä, on tiedonsiirron ja analyysin kannalta suotavaa pilkkoa joitakin hyvin pitkiä sekvenssejä, kuten eukaryoottisten genomien osia, pienempiin segmentteihin. Näissä tapauksissa koko sekvenssistä tuotetaan CON-jakotietueet, jotka sisältävät kokoamisohjeet, jotta koko sekvenssi voidaan näyttää ja ladata saumattomasti. Monet CON-tietueet sisältävät myös annotaatioita.

TIETOKANNAN KEHITTÄMINEN

GenBankissa ja yhteistyötietokannoissa EMBL ja DDBJ olevat sekvenssit ja biologiset annotaatiot ovat ensisijaisesti yksittäisten kirjoittajien toimittamia johonkin näistä kolmesta tietokannasta tai sekvensointikeskusten toimittamia EST-, STS-, GSS-, HTC-, WGS- tai HTG-sekvenssien erinä. Tietoja vaihdetaan päivittäin DDBJ:n ja EMBL:n kanssa, jotta NCBI:n palvelimien päivittäiset päivitykset sisältävät viimeisimmät saatavilla olevat sekvenssitiedot kaikista lähteistä.

Suora sähköinen lähettäminen

Lähes kaikki tietueet tulevat GenBankiin suorina sähköisinä lähetyksinä (Author Webpage), ja suurin osa kirjoittajista käyttää BankIt- tai Sequin-ohjelmia. Monet aikakauslehdet edellyttävät, että tekijät, joilla on sekvenssitietoja, toimittavat tiedot julkiseen tietokantaan julkaisemisen ehtona.

GenBankin henkilökunta voi yleensä antaa sekvenssi-ilmoitukselle liittymisnumeron kahden arkipäivän kuluessa sen vastaanottamisesta, ja tämä tapahtuu lähes 1600 kertaa päivässä. Liittymisnumero on vahvistus siitä, että sekvenssi on toimitettu, ja sen avulla sellaisten artikkelien lukijat, joissa sekvenssi mainitaan, voivat hakea tiedot. Suoraan toimitetuille sekvensseille tehdään laadunvarmistustarkastus, jossa tarkistetaan vektorikontaminaatio, koodausalueiden asianmukainen käännös, oikea taksonomia ja oikeat bibliografiset viittaukset. GenBank-tietueen luonnos lähetetään takaisin kirjoittajalle tarkistettavaksi, ennen kuin se siirtyy tietokantaan. Kirjoittajat voivat pyytää, että heidän sekvenssinsä pidetään luottamuksellisina julkaisuun asti. Koska GenBankin periaatteet edellyttävät, että talletetut sekvenssitiedot julkistetaan, kun sekvenssi tai liittymisnumero julkaistaan, kirjoittajia kehotetaan ilmoittamaan GenBankin henkilökunnalle sen artikkelin julkaisupäivä, jossa sekvenssi mainitaan, jotta varmistetaan tietojen oikea-aikainen julkistaminen. Vaikka sekvenssitietoja tai annotaatioita saa muuttaa vain ne toimittanut tutkija, kaikkia käyttäjiä kehotetaan ilmoittamaan viiveistä tietojen julkaisemisessa tai mahdollisista virheistä tai puutteista GenBankiin osoitteeseen [email protected].

NCBI tekee tiivistä yhteistyötä sekvensointikeskusten kanssa varmistaakseen, että massadatat sisällytetään GenBankiin ajoissa julkista julkaisua varten. GenBank tarjoaa suuria sekvensointiryhmiä varten erityisiä eräkohtaisia menettelyjä, jotka helpottavat tietojen toimittamista, mukaan lukien ohjelma ”tbl2asn”, joka on kuvattu osoitteessa Author Webpage.

Submission using BankIt

Siirto BankIt:n avulla

Noin kolmannes kirjailijoiden toimittamista aineistoista vastaanotetaan NCBI:n verkkopohjaisen BankIt-tiedonsiirtovälineen kautta (Author Webpage). BankIt-ohjelman avulla kirjoittajat syöttävät sekvenssitiedot suoraan lomakkeelle ja lisäävät biologisia merkintöjä, kuten koodaavia alueita tai mRNA-ominaisuuksia. Vapaamuotoiset tekstilaatikot, luettelolaatikot ja alasvetovalikot antavat toimittajalle mahdollisuuden kuvata sekvenssiä tarkemmin ilman, että hänen tarvitsee opetella muotoilusääntöjä tai rajoitettuja sanastoja. BankIt validoi toimitetut sekvenssit merkitsemällä monia yleisiä virheitä ja tarkastaa vektorikontaminaation BLASTin Vecscreen-nimisellä muunnelmalla, ennen kuin se luo GenBankin tasotiedostomuodossa olevan luonnostiedoston, jonka toimittaja voi tarkistaa. BankIt on ensisijainen työkalu yksinkertaisiin tietueisiin, erityisesti silloin, kun on tarkoitus toimittaa vain yksi tai pieni määrä tietueita (7). Toimittajat voivat käyttää BankIt-ohjelmaa myös olemassa olevien GenBank-tietueidensa päivittämiseen.

Submission using Sequin and tbl2asn

NCBI:llä on myös itsenäinen monialustainen toimittamisohjelma nimeltä Sequin (Author Webpage), jota voidaan käyttää vuorovaikutteisesti muiden NCBI:n sekvenssinhaku- ja analysointityökalujen kanssa. Sequin käsittelee yksinkertaisia sekvenssejä, kuten cDNA:ta, sekä segmentoituja merkintöjä, fylogeneettisiä tutkimuksia, populaatiotutkimuksia, mutaatiotutkimuksia, ympäristönäytteitä ja kohdistuksia, joihin BankIt ja muut verkkopohjaiset toimitustyökalut eivät sovellu hyvin. Sequinissa on kätevät muokkaus- ja monimutkaiset annotaatio-ominaisuudet, ja se sisältää useita sisäänrakennettuja validointitoimintoja laadunvarmistusta varten. Lisäksi Sequin pystyy käsittelemään suuria sekvenssejä, kuten 5,6 Mb:n Escherichia coli -genomin sekvenssiä, ja se pystyy lukemaan kaikki annotaatiot yksinkertaisten taulukoiden avulla. Versiot Macintosh-, PC- ja Unix-tietokoneille ovat saatavilla anonyymin FTP:n kautta osoitteessa (Author Webpage) hakemistossa ”sequin”. Kun lähetys on valmis, lähettäjät voivat lähettää Sequin-tiedoston sähköpostitse osoitteeseen ([email protected]).

Suurten, runsaasti annotoitujen genomien lähettäjät voivat pitää kätevänä käyttää edellä kohdassa ”Suora lähetys” mainittua ”tbl2asn”-ohjelmaa, jolla voidaan muuntaa annotaatioputken avulla tuotettu annotaatioita sisältävä taulukko ASN.1:ksi. tietueeksi, joka soveltuu GenBankiin lähettämistä varten.

Viivakoodisekvenssien lähettäminen

Carbol-konsortio (Consortium for Barcode of Life, CBOL) on kansainvälinen aloite, jonka tarkoituksena on kehittää DNA-viivakoodausta välineenä eliölajien luonnehtimiseksi käyttäen lyhyttä DNA-sekvenssiä, joka on johdettu sytokromioksidaasi I:n alayksikön geenin osasta. NCBI on yhteistyössä CBOL:n kanssa (Author Webpage) luonut online-työkalun viivakoodisekvenssien lähettämistä varten GenBankiin (Author Webpage), jonka avulla käyttäjät voivat ladata tiedostoja, jotka sisältävät sekvenssierän ja siihen liittyvät lähdetiedot. On odotettavissa, että tätä työkalua käytetään lähitulevaisuudessa myös muuntyyppisiin joukkolähetyksiin.

Sekvenssitunnisteet ja liittymisnumerot

Jokaiseen GenBank-tietueeseen, joka koostuu sekä sekvenssistä että sen annotaatioista, annetaan yksilöllinen tunniste, liittymisnumero, joka on yhteinen kolmelle yhteistoiminnalliselle tietokannalle (GenBank, DDBJ, EMBL) ja joka säilyy muuttumattomana tietueen eliniän ajan, myös silloin, kun sekvenssissä tai annotaatiossa on tapahtunut muutoksia. Jokaiselle GenBank-tietueeseen sisältyvälle DNA-sekvenssin versiolle annetaan myös yksilöllinen NCBI:n tunniste, jota kutsutaan ”gi”-nimellä ja joka näkyy GenBankin flatfile-tietueiden VERSION-rivillä liittymisnumeron jälkeen. Kolmas tunniste, joka on muotoa ”Accession.version” ja joka myös näkyy flatfile-tietueiden VERSION-rivillä, sisältää sekä gi-numeron että liittymisnumeron sisältämät tiedot. Tietokannassa ensimmäistä kertaa esiintyvällä tietueella on ”Accession.version”-tunniste, joka vastaa GenBankin tietueen ACCESSION-numeroa, jota seuraa ”.1” tietueen ensimmäisen sekvenssiversion osoittamiseksi, esim.

ACCESSION AF000001

VERSION AF000001.1 GI: 987654321

Kun GenBank-tietueessa annettuun sekvenssiin tehdään muutos, sekvenssille annetaan uusi gi-numero ja ”Accession.version”-tunnisteen versiopäätettä kasvatetaan. Koko tietueen liittymisnumero pysyy muuttumattomana, ja vanhempi sekvenssi on edelleen saatavilla vanhalla ”Accession.version”-tunnisteella ja gi:llä.

Toisella järjestelmällä seurataan vastaavien proteiinikäännösten muutoksia. Nämä tunnisteet näkyvät CDS-ominaisuuksien määritteinä GenBank-merkinnän FEATURES-osassa, esim. /protein_id=’AAA00001.1′. Proteiinisekvenssikäännökset saavat myös oman yksilöllisen gi-numeronsa, joka näkyy CDS-ominaisuuden toisena määritteenä, esim. /db_xref=’ GI:1233445′.

Sekvenssidatan vakaan saatavuuden varmistaminen

Tutkimusryhmät jakavat yhä suositummin uusia biologisia sekvenssejä ja päivittävät olemassa olevia sekvenssejä julkaisemalla datan suoraan verkkoon. Vaikka tämä on kätevä ja tehokas tapa jakaa dataa useiden yhteistyökumppaneiden kesken, jos alkuperäistä dataa ja päivityksiä ei toimiteta myös keskitettyyn arkistoon, syntyy kolme merkittävää ongelmaa: datan käyttöikä voi lyhentyä, datan täysi biologinen konteksti ei välttämättä toteudu ja paljon käytetyissä keskitetyissä tietokannoissa olevat olemassa olevat datat vanhentuvat.

Verkossa olevan sisällön katoavainen luonne on osa verkko-käyttäjäkokemusta. Eräässä yrityksessä kvantifioida sisällön elinikää seurattiin 360 satunnaisesti valittua verkkosivua neljän vuoden ajan, ja joukosta mitattiin vain kahden vuoden puoliintumisaika (9). Vaikka hyvin ylläpidetty verkkosivu voi varmasti säilyä pidempään kuin kaksi vuotta, tästä sivujoukosta raportoitu suhteellisen lyhyt puoliintumisaika kuvastaa niitä monia tekijöitä, jotka voivat vaikuttaa verkkoon julkaistujen tietojen saatavuuteen.

Jopa verkkoon julkaistujen sekvenssitietojen saatavuuden aikana sekvenssin koko biologinen konteksti ei kuitenkaan välttämättä tule selville, jos sekvenssiä ei voi kätevästi verrata toisiin sekvensseihin, jotka on kenties saatu etäisesti sukua olevilta organismeilta, jotka ovat isäntänä toimivan verkkosivun soveltamisalan ulkopuolella.

Lisäksi jos keskitettyjen tietokantojen sisältämiin sekvensseihin tehdään päivityksiä verkkosivulle, mutta niitä ei tehdä myös vastaaviin tietueisiin keskustietokannassa, uudemmat tiedot eivät saavuta laajempaa tutkimusyhteisöä, ja suuri osa tietojen vaikutuksesta menetetään.

Sekvenssidatan toimittaminen keskitettyyn arkistoon, kuten GenBankiin, ratkaisee nämä kolme ongelmaa. Tutkijoille taataan vakaa pääsy tietoihin FTP:n kautta saatavien kahden kuukauden välein julkaistavien versioiden, NCBI:n ylläpitämien sekä lukuisten kolmansien osapuolten rajapintojen kautta yhtenäiseen tietokokonaisuuteen ja kolmikantaisen International Nucleotide Sequence Databases -yhteistyön tarjoaman arkistointiredundanssin avulla. Uusien tietojen yhdistäminen muiden tutkijoiden maailmanlaajuisesti keräämiin tietoihin keskitetyssä tietokannassa tarjoaa laajan biologisen kontekstin, joka stimuloi löytöjä – jokaisen sekvenssin pitäminen ajan tasalla lisää kaikkien tietokannassa olevien sekvenssien hyödyllisyyttä.

GENBANK-TIETOJEN NÄYTTÄMINEN

Entrez-järjestelmä

GenBankin sekvenssitietueisiin pääsee käsiksi Entrezin (Author Webpage) kautta, joka on joustava tietokantojen hakujärjestelmä, joka käsittää enemmän kuin 30 biologista tietokantaa. Näihin kuuluvat GenBankista ja muista lähteistä peräisin olevat DNA- ja proteiinisekvenssit, genomikartat, populaatio-, fylogeneettiset ja ympäristösekvenssisarjat, geeniekspressiotiedot, NCBI:n taksonomia, proteiinialueita koskevat tiedot, proteiinirakenteet molekyylimallinnustietokannasta, MMDB:stä (10); kukin tietokanta on linkitetty tieteelliseen kirjallisuuteen PubMed- ja PubMed Central -tietokantojen kautta.

BLAST- sekvenssi- ja sekvenssi- ja sekvenssi- ja sakkoliitteitä vertailevat haun tulokset

Sekvenssihakuja tehdään GenBank-tietokantojen perusteella kaikkein perustavanlaatuisimmin ja eniten. NCBI tarjoaa BLAST-ohjelmaperheen (Author Webpage), jolla voidaan havaita samankaltaisuuksia kyselysekvenssin ja tietokannan sekvenssien välillä (11,12). BLAST-hakuja voidaan tehdä NCBI:n verkkosivuilla tai FTP:n kautta jaettavien erillisten ohjelmien avulla. BLASTia käsitellään erillisessä artikkelissa tässä numerossa (4).

GenBankin saaminen FTP:llä

NCBI jakaa GenBank-julkaisuja perinteisessä tasotiedostomuodossa sekä sisäisessä ylläpidossa käytettävässä ASN.1-muodossa (Abstract Syntax Notation). Täydellinen kahden kuukauden välein julkaistava GenBank-julkaisu ja päivittäiset päivitykset, jotka sisältävät myös EMBL:n ja DDBJ:n sekvenssitietoja, ovat saatavissa nimettömänä FTP:llä NCBI:stä osoitteesta (Author Webpage) sekä Indianan yliopistossa sijaitsevasta peilisivustosta (Author Webpage). Koko julkaisu tasotiedostomuodossa on saatavilla pakattuina tiedostoina hakemistossa ”genbank”, ja päivitykset, jotka eivät ole kumulatiivisia, ovat hakemistossa ”daily-nc”. GenBankin FTP-sivuston ”tools”-hakemistossa on skripti, jolla päivittäisten päivitysten sarja voidaan muuntaa kumulatiiviseksi päivitykseksi.

POSTIOSOITE

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Puhelin: +1 301 496 2475; faksi: +1 301 480 9241.

SÄHKÖPOSTIOSOITTEET

NCBI:n kotisivut: [email protected]

Sekvenssidatan toimittaminen GenBankiin: [email protected]

Tarkistukset tai ilmoitukset ”luottamuksellisten” GenBank-tietueiden julkaisemisesta: [email protected]

Yleistä tietoa NCBI:stä ja palveluista: [email protected]

LÄHTEET GenBankiin

Jos käytät GenBank-tietokantaa julkaistussa tutkimuksessasi, pyydämme, että tämä artikkeli mainitaan.

Rahoituksen tämän artikkelin Open Access -julkaisumaksuihin myönsi National Institutes of Health.

Esintressiristiriitojen selvitys. None declared.

1

Benson
D.A.

,

Karsch-Mizrachi
I.

,

Lipman
D.J.

,

Ostell
J.

,

Wheeler
D.L.

.

GenBank

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

16

20

)

2

Cochrane
G.

,

Aldebert
P.

,

Althorpe
N.

,

Andersson
M.

,

Baker
W.

,

Baldwin
A.

,

Bates
K.

,

Bhattacharyya
S.

,

Browne
P.

,

van denBroek
A.

, et al.

EMBL Nucleotide Sequence Database: developments in 2005

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

10

15

)

3

Okubo
K.

,

Sugawara
H.

,

Gojobori
T.

,

Tateno
Y.

.

DDBJ:n valmistelussa yleiskatsaus tietojen toimittamisen taustalla olevaan tutkimustoimintaan

,

Nucleic Acids Res.

,

2006

, vol.

34

(s.

6

9

)

4

Wheeler
D.L.

,

Barrett
T.

,

Benson
D.A.

,

Bryant
S.H.

,

Canese
K.

,

Chetvernin
V.

,

Church
D.M.

,

DiCuccio
M.

,

Edgar
R.

,

Federhen
S.

, et al.

Database resources of the National Center for Biotechnology Information

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

173

180

)

5

Boguski
M.S.

,

Lowe
T.M.

,

Tolstoshev
C.M.

.

dbEST-database for ’expressed sequence tags’

,

Nature Genet.

,

1993

, vol.

4

(pg.

332

333

)

6

Smith
M.W.

,

Holmsen
A.L.

,

Wei
Y.H.

,

Peterson
M.

,

Evans
G.A.

.

Genomic sequence sampling: a strategy for high resolution sequence-based physical mapping of complex genomes

,

Nature Genet.

,

1994

, vol.

7

(pg.

40

47

)

7

Kans
J.

,

Ouellette
B.

. ,

Bioinformatiikka: A Practical Guide to the Analysis of Genes and Proteins Chapter Submitting DNA Sequences to the Databases

,

2001
NY
John Wiley and Sons, Inc.

(s.

65

81

)

8

Kawai
J.

,

Shinagawa
A.

,

Shibata
K.

,

Yoshino
M.

,

Itoh
M.

,

Ishii
Y.

,

Arakawa
T.

,

Hara
A.

,

Fukunishi
Y.

,

Konno
H.

, et al.

Functional annotation of a full-length mouse cDNA collection

,

Nature

,

2001

, vol.

409

(pg.

685

690

)

9

Koehler
W.

.

Websivun muutos ja pysyvyys-a four-year longitudinal study

,

J. Am. Soc. Inform. Sci. Technol.

,

2002

, vol.

53

(pg.

162

171

)

10

Marchler-Bauer
A.

,

Anderson
J.B.

,

Cherukuri
P.F.

,

DeWeese-Scott
C.

,

Geer
L.Y.

,

Gwadz
M.

,

He
S.

,

Hurwitz
D.I.

,

Jackson
J.D.

,

Ke
Z.

ym. et al.

CDD: a Conserved Domain Database for protein classification

,

Nucleic Acids Res.

,

2005

, vol.

33

(pg.

192

196

)

11

Altschul
S.F.

,

Madden
T.L.

,

Schäffer
A.A.

,

Zhang
J.

,

Zhang
Z.

,

Miller
W.

,

Lipman
D.J.

.

Gapped BLAST ja PSI-BLAST: uuden sukupolven proteiinitietokantahakuohjelmat

,

Nucleic Acids Res.

,

1997

, vol.

25

(pg.

3389

3402

)

12

Zhang
Z.

,

Schäffer
A.A.

,

Miller
W.

,

Madden
T.L.

,

Lipman
D.J.

,

Koonin
E.V.

,

Altschul
S.F.

.

Protein sequence similarity searches using patterns as seeds

,

Nucleic Acids Res.

,

1998

, vol.

26

(pg.

3986

3990

)

.

Vastaa

Sähköpostiosoitettasi ei julkaista.