- Abstract
- INLEIDING
- ORGANISATIE VAN DE DATABANK
- Sequence-based taxonomy
- GenBank records en divisies
- Expressed sequence tags
- Sequence-tagged sites (STS’s), genome survey sequences (GSS’s) en environmental sample sequences (ENV)
- High-throughput genomic (HTC) and high-throughput cDNA (HTC) sequences
- Whole genome shotgun sequence (WGS)
- Speciale recordtypes
- Third Party Annotation
- GenBank CON-records voor assemblages van kleinere records
- BOUWEN VAN DE DATABANK
- Directe elektronische inzending
- Inzending met behulp van BankIt
- Inzending met behulp van Sequin en tbl2asn
- Inzending van barcodesequenties
- Sequence identifiers and accession numbers
- Zorgen voor stabiele toegang tot sequentiegegevens
- RETRIEVING GenBank DATA
- Het Entrez systeem
- BLAST sequentie-gelijkenis zoeken
- Verwerven van GenBank via FTP
- MAILADRES
- ELECTRONISCHE ADRESSEN
- CITING GenBank
Abstract
GenBank (R) is een uitgebreide database die openbaar beschikbare nucleotide-sequenties bevat voor meer dan 240 000 met name genoemde organismen, voornamelijk verkregen door inzendingen van individuele laboratoria en batch-inzendingen van grootschalige sequencing-projecten. De meeste gegevens worden ingediend via het webgebaseerde BankIt- of het zelfstandige Sequin-programma; de GenBank-medewerkers kennen de nummers na ontvangst toe. Dagelijkse gegevensuitwisseling met de EMBL Data Library in Europa en de DNA Data Bank in Japan garandeert een wereldwijde dekking. GenBank is toegankelijk via het opzoeksysteem van de NCBI, Entrez, dat gegevens integreert van de belangrijkste DNA- en eiwitsequentie-databanken samen met informatie over taxonomie, genoom, kartering, eiwitstructuur en -domeinen, en de biomedische tijdschriftliteratuur via PubMed. BLAST biedt sequentievergelijkingszoekopdrachten in GenBank en andere sequentiedatabanken. Volledige tweemaandelijkse versies en dagelijkse updates van de GenBank database zijn beschikbaar via FTP. Om toegang te krijgen tot GenBank en de bijbehorende opvraag- en analysediensten, begint u op de NCBI Homepage (Webpagina van de auteur).
INLEIDING
GenBank (1) is een uitgebreide openbare database van nucleotidesequenties en ondersteunende bibliografische en biologische annotatie, gebouwd en verspreid door het National Center for Biotechnology Information (NCBI), een divisie van de National Library of Medicine (NLM), gevestigd op de campus van de US National Institutes of Health (NIH) in Bethesda, MD.
Het NCBI bouwt GenBank voornamelijk op uit de sequentiegegevens van auteurs en uit de bulkverzending van express sequence tag (EST), genome survey sequence (GSS), en andere high-throughput gegevens van sequentiecentra. Ook het US Office of Patents and Trademarks levert sequenties van verleende octrooien. GenBank, de EMBL Data Library (2) in Europa en de DNA Databank van Japan (DDBJ) (3) vormen de International Nucleotide Sequence Databases en maken deel uit van een langdurige samenwerking waarbij dagelijks informatie wordt uitgewisseld om te zorgen voor een uniforme en alomvattende verzameling van sequentie-informatie. Het NCBI stelt de GenBank-gegevens gratis ter beschikking op het Internet, via FTP en via een breed scala van webgebaseerde opvraag- en analysediensten die op de GenBank-gegevens werken (4).
ORGANISATIE VAN DE DATABANK
Vanaf het begin is de omvang van GenBank ongeveer elke 18 maanden verdubbeld. Momenteel bevat hij meer dan 65 miljard nucleotidebasissen van meer dan 61 miljoen individuele sequenties, waaraan het voorbije jaar 15 miljoen nieuwe sequenties zijn toegevoegd. Bijdragen van “whole genome shotgun” (WGS) projecten vullen de gegevens in de traditionele divisies aan en brengen het totaal op meer dan 145 miljard bases. Volledige genomen (Webpagina van de auteur) blijven een groeiend deel van de databank uitmaken, met meer dan 120 van de meer dan 370 volledige microbiële genomen in GenBank die het afgelopen jaar zijn gedeponeerd. Het aantal eukaryote genomen waarvoor de dekking en de assemblage significant zijn, blijft ook toenemen, met meer dan 104 assemblages die nu beschikbaar zijn, inclusief die van het menselijke referentiegenoom.
Sequence-based taxonomy
De sequenties in de database zijn geclassificeerd en kunnen worden bevraagd met behulp van een uitgebreide sequence-based taxonomy (Author Webpage), ontwikkeld door het NCBI in samenwerking met EMBL en DDBJ en met de waardevolle hulp van externe adviseurs en curatoren. GenBank bevat meer dan 240.000 met name genoemde soorten en er komen er maandelijks meer dan 2900 bij. Ongeveer 16% van de sequenties in GenBank zijn van menselijke oorsprong en 13% van alle sequenties zijn menselijke EST’s. Na de Homo sapiens zijn de belangrijkste soorten in GenBank in termen van aantal bases Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis, en Canis familiaris.
GenBank records en divisies
Elke GenBank entry bevat een beknopte beschrijving van de sequentie, de wetenschappelijke naam en taxonomie van het bronorganisme, bibliografische referenties, en een tabel met kenmerken (Author Webpage) waarin gebieden van biologisch belang, zoals coderende regio’s en hun eiwit vertalingen, transcriptie-eenheden, herhaalde regio’s, en plaatsen van mutaties of modificaties worden vermeld.
De bestanden in de GenBank distributie zijn van oudsher verdeeld in “divisies” die ruwweg overeenkomen met taxonomische groepen zoals bacteriën (BCT), virussen (VRL), primaten (PRI), en knaagdieren (ROD). De laatste jaren zijn er divisies toegevoegd ter ondersteuning van specifieke sequencingstrategieën. De laatste jaren zijn er divisies toegevoegd ter ondersteuning van specifieke sequencingstrategieën. Het gaat onder meer om divisies voor express sequence tag (EST), genome survey (GSS), high throughput genomic (HTG), high throughput cDNA (HTC) en milieumonsters (ENV), waarmee het totaal op 18 divisies komt. Voor het gemak van de bestandsoverdracht worden de grotere divisies, zoals de EST en PRI, in meerdere bestanden verdeeld voor de tweemaandelijkse GenBank-releases op de FTP-site van de NCBI.
ESTs blijven een belangrijke bron van nieuwe sequentierecords en gensequenties, die meer dan 21 miljard nucleotidebasissen omvatten in GenBank-release 155. In het afgelopen jaar is het aantal EST’s met meer dan 40% toegenomen tot een totaal van 38,3 miljoen sequenties die meer dan 1200 verschillende organismen vertegenwoordigen. De toporganismen die in de EST-afdeling vertegenwoordigd zijn, zijn H.sapiens (7,8 miljoen records), M.musculus (4,7 miljoen records), O.sativa (1,2 miljoen records), Z.mays (1,1 miljoen records), B.taurus (1,1 miljoen records), en D.rerio (1,1 miljoen records). Als onderdeel van de dagelijkse verwerking van GenBank EST-gegevens identificeert de NCBI via BLAST-zoekopdrachten alle homologieën voor nieuwe EST-sequenties en neemt die informatie op in de bijbehorende databank, dbEST (Webpagina van de auteur) (5). De gegevens in dbEST worden verder verwerkt om de UniGene database (Author Webpage) van meer dan 1.2 miljoen gen-georiënteerde sequentieclusters te produceren die meer dan 70 organismen vertegenwoordigen, meer volledig beschreven in (4).
Sequence-tagged sites (STS’s), genome survey sequences (GSS’s) en environmental sample sequences (ENV)
De STS-afdeling van GenBank (Webpagina van de auteur) bevat meer dan 883 000 sequenties, waaronder anonieme STS’en op basis van genomische sequentie, alsmede gen-gebaseerde STS’en die zijn afgeleid van de 3′-uiteinden van genen en EST’s. Deze STS-records bevatten gewoonlijk mapping-informatie.
De GSS-afdeling van GenBank (Webpagina van de auteur) is het afgelopen jaar met 22% gegroeid tot een totaal van 14,9 miljoen records voor meer dan 600 organismen en omvat meer dan 9,4 miljard nucleotidebasissen. GSS-records zijn hoofdzakelijk losse lezingen van bacteriële kunstmatige chromosomen (“BAC-ends”) die in uiteenlopende genoomsequencingprojecten worden gebruikt. De meest vertegenwoordigde soorten in de GSS-afdeling zijn Z.mays (2,0 miljoen records), M.musculus (1,5 miljoen records), H.sapiens (970 000 records) en C.familiaris (854 000 records). Menselijke GSS-records zijn samen met de STS-records gebruikt (webpagina van de auteur) bij het opstellen van de BAC’s voor het Menselijk Genoomproject (6).
De ENV-afdeling van de GenBank biedt plaats aan niet-WGS-sequenties die zijn verkregen via milieubemonsteringsmethoden waarbij het bronorganisme onbekend is. Records in de ENV-afdeling bevatten “ENV” in het trefwoordveld en gebruiken een “/environmental_sample”-kwalificator in het bronkenmerk. Vanaf versie 155 van GenBank bevatte de ENV-afdeling van GenBank meer dan 275 000 sequenties, die 236 miljoen basenparen omvatten en meer dan 4900 studies vertegenwoordigden.
High-throughput genomic (HTC) and high-throughput cDNA (HTC) sequences
De HTG-afdeling van GenBank (Webpagina van de auteur) bevat onvoltooide grootschalige genomicarecords die zich in de overgang naar een voltooide staat bevinden (7). Deze records worden aangeduid als Fase 0-3, afhankelijk van de kwaliteit van de gegevens. Bij het bereiken van fase 3, de voltooide fase, worden HTG-records overgebracht naar de passende organismendivisie van GenBank. Bij release 155 van GenBank bevatte de HTG-divisie 15,9 miljard basenparen sequentie, een toename van bijna 3 miljard basen in het afgelopen jaar.
De HTC-divisie van GenBank biedt plaats aan HTC-sequenties. HTC’s zijn van conceptkwaliteit, maar kunnen 5′-onvertaalde regio’s (5′-UTR’s) en 3′-UTR’s, gedeeltelijke coderende regio’s en introns bevatten. HTC-sequenties die voltooid en van hoge kwaliteit zijn, worden overgebracht naar de passende GenBank-afdeling van het organisme. GenBank release 155 bevatte meer dan 441 000 HTC-sequenties met een totaal van meer dan 539 miljoen basen. Een project dat HTC-gegevens genereert wordt beschreven in (8).
Whole genome shotgun sequence (WGS)
Meer dan 80 miljard basen WGS-sequentie verschijnen in GenBank als reeksen WGS-contigs, waarvan er vele annotaties dragen, afkomstig van één sequencingproject. Deze sequenties krijgen een toetredingsnummer dat bestaat uit een project-ID van vier letters, gevolgd door een versienummer van twee cijfers, en een contig-ID van zes cijfers. Zo wordt het WGS-toetredingsnummer “AAAA01072744” toegekend aan contignummer “072744” van de eerste versie van project “AAAA”. WGS-sequencingprojecten hebben meer dan 18 miljoen contigs bijgedragen aan GenBank, een toename van 64% in het afgelopen jaar. Deze primaire sequenties zijn gebruikt om zo’n 760 000 grootschalige assemblages van scaffolds en chromosomen te maken. WGS-projectcontigs voor H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces, en meer dan 450 andere organismen en milieumonsters zijn beschikbaar. Voor een volledige lijst van WGS-projecten met links naar de gegevens, zie de webpagina van de auteur.
WGS-projecten kunnen worden geannoteerd. Veel genoomprojecten met een lage dekkingsgraad bevatten echter geen annotatie. Omdat deze sequentieprojecten als concept en niet als volledig worden beschouwd, kunnen deze annotaties niet van de ene naar de andere assemblageversie worden gevolgd en moeten zij als voorlopig worden beschouwd.
Inzenders van WGS-sequenties, en genoomsequenties in het algemeen, wordt dringend verzocht een nieuwe reeks evidence-tags te gebruiken van de vorm ‘/experimental=text’ en ‘/inference=TYPE:text’, waarbij ‘TYPE’ een van een aantal standaardinferentietypen is en ’text’ uit gestructureerde tekst bestaat. Deze nieuwe kwalificeerders vervangen respectievelijk ‘evidence=experimenteel’ en ‘evidence=niet-experimenteel’, die niet langer worden ondersteund.
Speciale recordtypes
Third Party Annotation
Third Party Annotation (TPA) records ondersteunen de rapportage van gepubliceerde sequentie-annotatie door een andere wetenschapper dan de oorspronkelijke indiener van het primaire sequentie-record in DDBJ/EMBL/GenBank. TPA-records vallen in een van de volgende twee categorieën: “experimenteel”, waarbij er direct experimenteel bewijs is voor het bestaan van het geannoteerde molecuul, en “inferentieel”, waarbij het experimentele bewijs indirect is. TPA-sequenties kunnen worden gecreëerd door een aantal primaire sequenties te assembleren. Het formaat van een TPA-record (bv. BK000016) lijkt op dat van een conventioneel GenBank-record, maar bevat het label “TPA:” aan het begin van elke definitieregel en de trefwoorden “Annotatie door derden; TPA” in het veld Trefwoorden. In het veld Commentaar van de TPA-records worden de primaire sequenties vermeld die zijn gebruikt om de TPA-sequentie samen te stellen; in het veld Primair worden de basisbereiken vermeld van de primaire sequenties die tot de TPA-sequentie bijdragen.
In GenBank release 155 zijn meer dan 5000 TPA-records opgenomen, waaronder meer dan 2170 voor Drosophila melanogaster, 950 voor H.sapiens, 330 voor O.sativa en 290 voor M.musculus. TPA-sequenties worden pas voor het publiek vrijgegeven wanneer hun toetredingsnummers of sequentiegegevens en annotatie in een biologisch tijdschrift met collegiale toetsing zijn verschenen. TPA’s kunnen bij GenBank worden ingediend met BankIt of Sequin. Voor meer informatie over TPA, zie de Webpagina van de auteur.
GenBank CON-records voor assemblages van kleinere records
Hoewel vele genomen, zoals bacteriële genomen, in GenBank als enkelvoudige sequenties worden voorgesteld, is het vanuit het oogpunt van gegevensoverdracht en analyse wenselijk sommige zeer lange sequenties, zoals delen van eukaryotische genomen, in kleinere segmenten op te splitsen. In die gevallen worden CON-delingsrecords voor de volledige sequentie aangemaakt die assemblage-instructies bevatten om een naadloze weergave en download van de volledige sequentie mogelijk te maken. Veel CON-records bevatten ook annotaties.
BOUWEN VAN DE DATABANK
De sequenties en biologische annotaties in GenBank, en de samenwerkende databanken EMBL en DDBJ, worden hoofdzakelijk door individuele auteurs bij een van de drie databanken ingediend, of door sequentiecentra als batches EST-, STS-, GSS-, HTC-, WGS-, of HTG-sequenties. Dagelijks wordt informatie uitgewisseld met DDBJ en EMBL, zodat de dagelijkse updates van de NCBI-servers de meest recent beschikbare sequentiegegevens uit alle bronnen bevatten.
Directe elektronische inzending
Virtueel alle records komen GenBank binnen als directe elektronische inzending (Author Webpage), waarbij de meerderheid van de auteurs gebruik maakt van de programma’s BankIt of Sequin. Veel tijdschriften eisen van auteurs met sequentiegegevens dat zij de gegevens bij een openbare databank indienen als voorwaarde voor publicatie.
GenBank-medewerkers kunnen gewoonlijk binnen twee werkdagen na ontvangst een volgordenummer toekennen aan een sequentie-inzending, en doen dat met een snelheid van bijna 1600 per dag. Het toetredingsnummer dient als bevestiging dat de sequentie is ingediend en stelt lezers van artikelen waarin de sequentie wordt geciteerd in staat de gegevens terug te vinden. Direct ingediende sequenties worden aan een kwaliteitscontrole onderworpen waarbij wordt nagegaan of ze niet verontreinigd zijn met vectoren, of de coderende regio’s correct zijn vertaald, of de taxonomie correct is en of de bibliografische gegevens correct zijn geciteerd. Een concept van het GenBank-record wordt ter controle teruggestuurd naar de auteur voordat het in de databank wordt opgenomen. Auteurs kunnen vragen dat hun sequenties vertrouwelijk blijven tot het tijdstip van publicatie. Aangezien het GenBank-beleid vereist dat gedeponeerde sequentiegegevens openbaar worden gemaakt wanneer de sequentie of het volgnummer wordt gepubliceerd, wordt auteurs gevraagd het GenBank-personeel te informeren over de publicatiedatum van het artikel waarin de sequentie wordt geciteerd, zodat de gegevens tijdig kunnen worden vrijgegeven. Hoewel alleen de indienende wetenschapper sequentiegegevens of annotaties mag wijzigen, worden alle gebruikers aangemoedigd vertragingen bij het vrijgeven van gegevens of mogelijke fouten of weglatingen te melden aan GenBank op [email protected].
NCBI werkt nauw samen met sequentiecentra om ervoor te zorgen dat bulkgegevens tijdig in GenBank worden opgenomen voor publieke vrijgave. GenBank biedt speciale batchprocedures voor grootschalige sequencinggroepen om het indienen van gegevens te vergemakkelijken, waaronder het programma ’tbl2asn’, beschreven op Auteurswebpagina.
Inzending met behulp van BankIt
Over een derde van de inzendingen van auteurs wordt ontvangen via het webgebaseerde gegevensindieningsinstrument van de NCBI, BankIt (Auteurswebpagina). Met BankIt kunnen auteurs sequentie-informatie rechtstreeks in een formulier invoeren en biologische annotaties toevoegen, zoals coderende regio’s of mRNA-kenmerken. Met vrije tekstvakken, lijstvakken en pull-down menu’s kan de indiener de sequentie verder beschrijven zonder dat hij opmaakregels of een beperkt vocabulaire hoeft te leren. BankIt valideert de inzendingen, markeert veel voorkomende fouten en controleert op vectorcontaminatie met behulp van een variant van BLAST, Vecscreen genaamd, voordat een conceptrecord in het platte GenBank-bestandsformaat wordt aangemaakt dat de indiener kan controleren. BankIt is het instrument bij uitstek voor eenvoudige inzendingen, vooral wanneer slechts één of een klein aantal records moet worden ingediend (7). BankIt kan ook worden gebruikt door indieners om hun bestaande GenBank records bij te werken.
Inzending met behulp van Sequin en tbl2asn
NCBI biedt ook een standalone multi-platform inzendingsprogramma genaamd Sequin (Author Webpage) dat interactief kan worden gebruikt met andere NCBI sequentie opvraag- en analysegereedschappen. Sequin verwerkt eenvoudige sequenties zoals een cDNA, maar ook gesegmenteerde inzendingen, fylogenetische studies, populatiestudies, mutatiestudies, milieumonsters en alignments waarvoor BankIt en andere webgebaseerde indieningstools niet goed geschikt zijn. Sequin heeft handige bewerkings- en complexe annotatiemogelijkheden en bevat een aantal ingebouwde validatiefuncties voor kwaliteitsborging. Bovendien is Sequin in staat om grote sequenties, zoals die van het 5.6 Mb Escherichia coli genoom, te verwerken en een volledige aanvulling van annotaties via eenvoudige tabellen in te lezen. Versies voor Macintosh, PC en Unix computers zijn beschikbaar via anonieme FTP op (Author Webpage) in de ‘sequin’ directory. Zodra een inzending is voltooid, kunnen indieners het sequin-bestand e-mailen naar het adres ([email protected]).
Indieners van grote, zwaar geannoteerde genomen kunnen het handig vinden om ’tbl2asn’ te gebruiken, waarnaar hierboven wordt verwezen onder ‘Directe indiening’, om een tabel met annotaties die via een annotatiepijplijn is gegenereerd, om te zetten in een ASN.1 record dat geschikt is voor indiening bij GenBank.
Inzending van barcodesequenties
Het Consortium for the Barcode of Life (CBOL) is een internationaal initiatief voor de ontwikkeling van DNA-barcoding als instrument voor de karakterisering van soorten organismen met behulp van een korte DNA-sequentie die is afgeleid van een deel van het cytochroomoxidase-subeenheid-I-gen. NCBI heeft in samenwerking met CBOL (Webpagina van de auteur) een online-hulpmiddel gecreëerd voor de bulkindiening van barcodesequenties bij GenBank (Webpagina van de auteur), waarmee gebruikers bestanden kunnen uploaden die een partij sequenties met bijbehorende broninformatie bevatten. Verwacht wordt dat deze tool in de nabije toekomst ook voor andere soorten bulk-indieningen zal worden gebruikt.
Sequence identifiers and accession numbers
Elk GenBank-record, bestaande uit zowel een sequentie als de annotaties ervan, krijgt een unieke identifier, het toetredingsnummer, dat door de drie samenwerkende databanken (GenBank, DDBJ, EMBL) wordt gedeeld en constant blijft gedurende de levensduur van het record, zelfs wanneer er een wijziging in de sequentie of annotatie is opgetreden. Elke versie van de DNA-sequentie in een GenBank-record krijgt ook een unieke NCBI-identificatiecode, “gi” genaamd, die op de VERSIE-regel van GenBank-flatfolierecords na het toetredingsnummer wordt vermeld. Een derde identificatiecode van de vorm “Accession.version”, die ook op de VERSIE-regel van flatfile-records staat, bevat de informatie van zowel het gi als het toetredingsnummer. Een record dat voor het eerst in de databank verschijnt, heeft een “Accession.version”-identificatiecode die gelijk is aan het ACCESSIENUMMER van het GenBank-record, gevolgd door “.1” om de eerste versie van de sequentie voor het record aan te geven, bijv.
ACCESSION AF000001
VERSION AF000001.1 GI: 987654321
Wanneer een wijziging wordt aangebracht in een sequentie in een GenBank-record, wordt een nieuw gi-nummer aan de sequentie toegekend en wordt de versie-extensie van de “Accession.version”-identifier verhoogd. Het toetredingsnummer voor het gehele record blijft ongewijzigd en de oudere sequentie blijft beschikbaar onder de oude “Accession.version”-identifier en gi.
Een soortgelijk systeem houdt veranderingen bij in de corresponderende eiwitvertalingen. Deze identifiers verschijnen als qualifiers voor CDS-kenmerken in het FEATURES-gedeelte van een GenBank-entry, b.v. /protein_id=’AAA00001.1′. Vertalingen van eiwitsequenties krijgen ook hun eigen unieke gi nummer, dat verschijnt als een tweede qualifier op het CDS kenmerk, bijv. /db_xref=’ GI:1233445′.
Zorgen voor stabiele toegang tot sequentiegegevens
Het wordt steeds populairder voor onderzoeksgroepen om nieuwe biologische sequenties te delen en bestaande sequenties bij te werken door de gegevens direct op het Web te plaatsen. Hoewel dit een handige en effectieve manier is om de gegevens te delen met een aantal medewerkers, ontstaan er drie grote problemen als de oorspronkelijke gegevens en updates niet ook bij een centrale databank worden ingediend: de levensduur van de gegevens kan worden verkort, de volledige biologische context van de gegevens wordt mogelijk niet gerealiseerd, en bestaande gegevens in veelgebruikte gecentraliseerde databanken raken verouderd.
De kortstondige aard van veel inhoud op het web maakt deel uit van de gemeenschappelijke ervaring van webgebruikers. In een poging om de levensduur van inhoud te kwantificeren, werden 360 willekeurig gekozen webpagina’s gevolgd gedurende een periode van 4 jaar, en werd een halveringstijd van slechts 2 jaar gemeten voor de set (9). Hoewel een goed onderhouden webpagina zeker langer dan 2 jaar kan blijven bestaan, weerspiegelt de relatief korte halfwaardetijd die voor deze reeks pagina’s werd gerapporteerd, de vele factoren die de toegang tot op het web geplaatste gegevens kunnen beïnvloeden.
Zelfs tijdens de toegankelijke levensduur van op het web geplaatste sequentiegegevens kan het echter gebeuren dat de volledige biologische context van een sequentie niet wordt gerealiseerd als de sequentie niet gemakkelijk kan worden vergeleken met andere – misschien afkomstig van ver verwante organismen die buiten het bestek van de host-webpagina liggen.
Bovendien, als updates van sequenties in gecentraliseerde databanken wel op een webpagina worden gezet, maar niet ook op de corresponderende records in de centrale databank, zullen de nieuwere gegevens de bredere onderzoeksgemeenschap niet bereiken en zal veel van de impact van de gegevens verloren gaan.
De indiening van sequentiegegevens in een gecentraliseerde databank zoals GenBank lost deze drie problemen op. Onderzoekers krijgen een stabiele toegang tot de gegevens via twee-maandelijkse versies die via FTP beschikbaar zijn, via NCBI-onderhoud en talrijke interfaces van derden voor een uniforme dataset, en via de redundantie in de archieven die wordt geboden door de tripartiete International Nucleotide Sequence Databases-samenwerking. Het combineren van nieuwe gegevens met die van andere onderzoekers over de hele wereld in een centrale databank biedt een brede biologische context die ontdekkingen stimuleert – het actueel houden van elke sequentie vergroot het nut van alle sequenties in de databank.
RETRIEVING GenBank DATA
Het Entrez systeem
De sequentierecords in GenBank zijn toegankelijk via Entrez (Author Webpage), een flexibel database retrieval systeem dat meer dan 30 biologische databanken omvat. Deze omvatten DNA- en eiwitsequenties uit GenBank en andere bronnen, genoomkaarten, populatie-, fylogenetische en omgevingssequentiesets, genexpressiegegevens, de NCBI-taxonomie, informatie over eiwitdomeinen, eiwitstructuren uit de Molecular Modeling Database, MMDB (10); elke database is gekoppeld aan de wetenschappelijke literatuur via PubMed en PubMed Central.
BLAST sequentie-gelijkenis zoeken
Gelijkenis-sequentie zoeken is de meest fundamentele en frequente vorm van analyse die op de GenBank-gegevens wordt uitgevoerd. NCBI biedt de BLAST (Author Webpage) familie van programma’s om overeenkomsten tussen een query-sequentie en database-sequenties op te sporen (11,12). BLAST-zoekopdrachten kunnen worden uitgevoerd op de website van het NCBI, of via een reeks standalone programma’s die via FTP worden verspreid. BLAST wordt besproken in een apart artikel in dit nummer (4).
Verwerven van GenBank via FTP
NCBI distribueert GenBank releases zowel in het traditionele flat-file formaat als in het Abstract Syntax Notation (ASN.1) formaat dat voor intern onderhoud wordt gebruikt. De volledige tweemaandelijkse GenBank-release en de dagelijkse updates, waarin ook sequentiegegevens van EMBL en DDBJ zijn opgenomen, zijn beschikbaar via anonieme FTP van het NCBI op (Webpagina van de auteur) en op een spiegelsite aan de Universiteit van Indiana (Webpagina van de auteur). De volledige versie in het flat-file formaat is beschikbaar als gecomprimeerde bestanden in de directory ‘genbank’ met een niet-cumulatieve reeks updates in ‘daily-nc’. Er is een script beschikbaar in de directory ’tools’ van de GenBank FTP-site om een set dagelijkse updates om te zetten in een cumulatieve update.
MAILADRES
GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tel: +1 301 496 2475; Fax: +1 301 480 9241.
ELECTRONISCHE ADRESSEN
Homepage van hetNCBI: [email protected]
Inzending van sequentiegegevens in GenBank: [email protected]
Revisies op of mededeling van vrijgave van “vertrouwelijke” GenBank-gegevens: [email protected]
Algemene informatie over NCBI en diensten: [email protected]
CITING GenBank
Als u de GenBank database gebruikt in uw gepubliceerde onderzoek, vragen wij dat dit document wordt geciteerd.
Funding om de Open Access publicatiekosten voor dit artikel te betalen werd verstrekt door de National Institutes of Health.
Conflict of interest statement. None declared.
,
,
,
,
.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
,
,
,
.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
>
,
,
.
,
,
, vol.
(pg.
–
)
,
,
,
,
.
,
,
, vol.
(pg.
–
)
,
. ,
,
(pg.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
>
,
,
,
,
,
,
.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
.
,
,
, vol.
(pg.
–
)
>