GenBank | Nucleic Acids Research

Abstract

GenBank (R) er en omfattende database, der indeholder offentligt tilgængelige nukleotidsekvenser for mere end 240 000 navngivne organismer, der primært er indhentet gennem indsendelser fra individuelle laboratorier og batch-indberetninger fra store sekventeringsprojekter. De fleste indsendelser sker ved hjælp af det webbaserede BankIt-program eller det selvstændige Sequin-program, og GenBank-medarbejderne tildeler adgangsnumre ved modtagelsen. Den daglige udveksling af data med EMBL Data Library i Europa og DNA Data Bank i Japan sikrer en verdensomspændende dækning. GenBank er tilgængeligt via NCBI’s retrieval system, Entrez, som integrerer data fra de vigtigste DNA- og proteinsekvensdatabaser sammen med oplysninger om taksonomi, genom, kortlægning, proteinstruktur og domæner samt biomedicinsk tidsskriftslitteratur via PubMed. BLAST giver mulighed for at søge efter sekvensligheder i GenBank og andre sekvensdatabaser. Komplette udgivelser hver anden måned og daglige opdateringer af GenBank-databasen er tilgængelige via FTP. For at få adgang til GenBank og dens relaterede søgnings- og analysetjenester skal man begynde på NCBI’s hjemmeside (Author Webpage).

INDLEDNING

GenBank (1) er en omfattende offentlig database med nukleotidsekvenser og understøttende bibliografiske og biologiske annotationer, som er opbygget og distribueret af National Center for Biotechnology Information (NCBI), en afdeling af National Library of Medicine (NLM), der er beliggende på US National Institutes of Health (NIH)’s campus i Bethesda, MD.

NCBI opbygger GenBank primært ud fra indsendelse af sekvensdata fra forfattere og fra masseindberetninger af EST (Expressed Sequence Tag), GSS (Genome Survey Sequence) og andre highthroughput-data fra sekventeringscentre. US Office of Patents and Trademarks bidrager også med sekvenser fra udstedte patenter. GenBank, EMBL Data Library (2) i Europa og DNA Databank of Japan (DDBJ) (3) udgør de internationale nukleotidsekvensdatabaser og er medlemmer af et mangeårigt samarbejde, hvor der dagligt udveksles oplysninger for at sikre en ensartet og omfattende samling af sekvensoplysninger. NCBI gør GenBank-dataene gratis tilgængelige via internettet, via FTP og via en lang række webbaserede hentnings- og analysetjenester, som opererer på GenBank-dataene (4).

ORGANISERING AF DATABASEN

Siden dens oprettelse er GenBank fordoblet i størrelse ca. hver 18. måned. Den indeholder i øjeblikket over 65 mia. nukleotidbaser fra mere end 61 mio. individuelle sekvenser, og 15 mio. nye sekvenser er blevet tilføjet i det seneste år. Bidrag fra WGS-projekter (whole genome shotgun) supplerer dataene i de traditionelle afdelinger og bringer det samlede antal over 145 milliarder baser. Komplette genomer (Author Webpage) udgør fortsat en voksende del af databasen, idet over 120 af de mere end 370 komplette mikrobielle genomer i GenBank er blevet deponeret i løbet af det seneste år. Antallet af eukaryote genomer, for hvilke dækningen og sammensætningen er betydelig, fortsætter også med at stige, idet der nu er over 104 sammensætninger til rådighed, herunder det menneskelige referencegenom.

Sekvensbaseret taksonomi

Databasens sekvenser er klassificeret og kan forespørges ved hjælp af en omfattende sekvensbaseret taksonomi (Author Webpage), der er udviklet af NCBI i samarbejde med EMBL og DDBJ og med værdifuld bistand fra eksterne rådgivere og kuratorer. Over 240 000 navngivne arter er repræsenteret i GenBank, og der kommer nye arter til med en hastighed på over 2900 om måneden. Ca. 16% af sekvenserne i GenBank er af menneskelig oprindelse, og 13% af alle sekvenser er menneskelige EST’er. Efter Homo sapiens er de vigtigste arter i GenBank målt i antal baser Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis og Canis familiaris.

GenBank-poster og -afdelinger

Hvert GenBank-poster indeholder en kortfattet beskrivelse af sekvensen, kildeorganismens videnskabelige navn og taxonomi, bibliografiske referencer og en tabel med funktioner (Author Webpage) med en liste over områder af biologisk betydning, f.eks. kodningsregioner og deres proteinoversættelser, transkriptionsenheder, gentagelsesregioner og steder med mutationer eller modifikationer.

Filerne i GenBank-distributionen er traditionelt blevet opdelt i “divisioner”, der nogenlunde svarer til taksonomiske grupper som f.eks. bakterier (BCT), vira (VRL), primater (PRI) og gnavere (ROD). I de senere år er der blevet tilføjet opdelinger for at støtte specifikke sekventeringsstrategier. I de seneste år er der blevet tilføjet divisioner til støtte for specifikke sekventeringsstrategier. Disse omfatter afdelinger for EST-sekvenser (EST), genomundersøgelser (GSS), genomiske sekvenser med høj kapacitet (HTG), cDNA-sekvenser med høj kapacitet (HTC) og sekvenser fra miljøprøver (ENV), således at der i alt er 18 afdelinger. For at lette filoverførslen er de større afdelinger, f.eks. EST og PRI, opdelt i flere filer til de halvårlige GenBank-udgivelser på NCBI’s FTP-site.

Expressed sequence tags

ESTs er fortsat en vigtig kilde til nye sekvensregistreringer og gensekvenser og omfatter over 21 milliarder nukleotidbaser i GenBank-udgave 155. I løbet af det seneste år er antallet af EST’er steget med over 40 % til i alt 38,3 millioner sekvenser, der repræsenterer mere end 1200 forskellige organismer. De organismer, der er mest repræsenteret i EST-afdelingen, er H.sapiens (7,8 mio. optegnelser), M.musculus (4,7 mio. optegnelser), O.sativa (1,2 mio. optegnelser), Z.mays (1,1 mio. optegnelser), B.taurus (1,1 mio. optegnelser) og D.rerio (1,1 mio. optegnelser). Som en del af den daglige behandling af GenBank EST-data identificerer NCBI ved hjælp af BLAST-søgninger alle homologier for nye EST-sekvenser og indarbejder disse oplysninger i den tilhørende database, dbEST (Author Webpage) (5). Dataene i dbEST behandles yderligere for at fremstille UniGene-databasen (Author Webpage) med mere end 1,2 millioner genorienterede sekvensklynger, der repræsenterer over 70 organismer, og som beskrives mere detaljeret i (4).

Sequence-tagged sites (STS’er), genome survey sequences (GSS’er) og environmental sample sequences (ENV)

STS-afdelingen i GenBank (Author Webpage) indeholder over 883 000 sekvenser, herunder anonyme STS’er baseret på genomisk sekvens samt genbaserede STS’er afledt fra 3′-enderne af gener og EST’er. Disse STS-poster indeholder normalt kortlægningsoplysninger.

GSS-afdelingen i GenBank (Author Webpage) er i løbet af det seneste år vokset med 22 % til i alt 14,9 mio. poster for over 600 organismer og omfatter over 9,4 mia. nukleotidbaser. GSS-registreringer er overvejende enkeltlæsninger fra bakterielle kunstige kromosomer (“BAC-ender”), der anvendes i en række projekter til sekventering af genomer. De mest repræsenterede arter i GSS-afdelingen er Z.mays (2,0 mio. registreringer), M.musculus (1,5 mio. registreringer), H.sapiens (970 000 registreringer) og C.familiaris (854 000 registreringer). Human GSS-poster er blevet anvendt (Author Webpage) sammen med STS-posterne til at lægge fliser til BAC’erne for Human Genome Project (6).

GenBank’s ENV-afdeling rummer sekvenser, der ikke er WGS-sekvenser, og som er opnået ved hjælp af miljøprøvetagningsmetoder, hvor kildeorganismen er ukendt. Registreringer i ENV-afdelingen indeholder “ENV” i nøgleordsfeltet og anvender en “/environmental_sample”-kvalifier i kildefeaturen. Ved GenBank-udgivelse 155 indeholdt ENV-afdelingen i GenBank over 275 000 sekvenser, der omfatter 236 millioner basepar, og som repræsenterer mere end 4900 undersøgelser.

High-throughput genomic (HTC) og high-throughput cDNA (HTC) sekvenser

GenBank’s HTG-afdeling (Author Webpage) indeholder ufærdige genomiske registreringer i stor skala, der er under overgang til en færdig tilstand (7). Disse registreringer betegnes som fase 0-3 afhængigt af dataenes kvalitet. Når de når fase 3, den færdige tilstand, flyttes HTG-posterne over i den relevante organismeafdeling i GenBank. I forbindelse med version 155 af GenBank indeholdt HTG-afdelingen 15,9 mia. basepar sekvenser, hvilket er en stigning på næsten 3 mia. baser i løbet af det seneste år.

GenBank’s HTC-afdeling indeholder HTC-sekvenser. HTC-sekvenser er af udkastkvalitet, men kan indeholde 5′-untranslated regions (5′-UTR’er) og 3′-UTR’er, delvise kodningsregioner og introner. HTC-sekvenser, der er færdige og af høj kvalitet, flyttes til den relevante GenBank-afdeling for den pågældende organisme. GenBank-udgave 155 indeholdt mere end 441 000 HTC-sekvenser med i alt over 539 mio. baser. Et projekt, der genererer HTC-data, er beskrevet i (8).

Whole genome shotgun sequence (WGS)

Over 80 mia. baser af WGS-sekvenser findes i GenBank som sæt WGS-contigs, hvoraf mange er forsynet med annotationer, og som stammer fra et enkelt sekventeringsprojekt. Disse sekvenser har fået tildelt adgangsnumre bestående af et projekt-ID på fire bogstaver, efterfulgt af et tocifret versionsnummer og et sekscifret contig-ID. WGS-adgangsnummeret “AAAA01072744” er således tildelt contig-nummeret “072744” i den første version af projekt “AAAA”. WGS-sekventeringsprojekter har bidraget med over 18 mio. contigs til GenBank, hvilket er en stigning på 64 % i løbet af det seneste år. Disse primære sekvenser er blevet anvendt til at konstruere ca. 760 000 store samlinger af stilladser og kromosomer. WGS-projektets contigs for H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces og mere end 450 andre organismer og miljøprøver er tilgængelige. For en komplet liste over WGS-projekter med links til dataene, se Author Webpage.

WGS-projekter kan være kommenteret. Mange genomprojekter med lav dækningsgrad indeholder imidlertid ingen annotation. Da disse sekvensprojekter betragtes som udkast og ikke er komplette, kan disse annotationer ikke spores fra en assemblageversion til den næste og bør betragtes som foreløbige.

Sendere af WGS-sekvenser og genomiske sekvenser generelt opfordres indtrængende til at anvende et nyt sæt evidenstags af formen “/experimental=text” og “/inference=TYPE:text”, hvor “TYPE” er en af en række standardinferencetyper, og “text” består af struktureret tekst. Disse nye kvalifikatorer erstatter henholdsvis “evidence=experimental” og “evidence=non-experimental”, som ikke længere understøttes.

Specielle registreringstyper

Third Party Annotation

Third Party Annotation (TPA)-registreringer understøtter indberetning af offentliggjorte sekvensannotationer af en anden forsker end den oprindelige indsender af den primære sekvensregistrering i DDBJ/EMBL/GenBank. TPA-poster falder i en af to kategorier: “eksperimentelle”, hvor der er direkte eksperimentelle beviser for eksistensen af det annoterede molekyle, og “inferentielle”, hvor de eksperimentelle beviser er indirekte. TPA-sekvenser kan oprettes ved at sammensætte en række primære sekvenser. Formatet af en TPA-rekord (f.eks. BK000016) svarer til formatet af en konventionel GenBank-rekord, men indeholder etiketten “TPA:” i begyndelsen af hver definitionslinje og nøgleordene “Third Party Annotation; TPA” i feltet “Keywords”. I Comment-feltet i TPA-poster anføres de primære sekvenser, der er anvendt til at sammensætte TPA-sekvensen; Primary-feltet angiver basisintervallerne for de primære sekvenser, der bidrager til TPA-sekvensen.

Over 5000 TPA-poster er indeholdt i GenBank-udgave 155, herunder over 2170 for Drosophila melanogaster, 950 for H.sapiens, 330 for O.sativa og 290 for M.musculus. TPA-sekvenser frigives ikke til offentligheden, før deres accessionsnumre eller sekvensdata og annotationer er offentliggjort i et peer-reviewed biologisk tidsskrift. TPA-indberetninger til GenBank kan foretages ved hjælp af enten BankIt eller Sequin. Yderligere oplysninger om TPA findes på Author Webpage.

GenBank CON-rekord for assemblies of smaller records

Og selv om mange genomer, f.eks. bakteriegenomer, er repræsenteret i GenBank som enkeltsekvenser, er det ønskeligt af hensyn til dataoverførsel og analyse at opdele nogle meget lange sekvenser, f.eks. dele af eukaryotiske genomer, i mindre segmenter. I disse tilfælde produceres der CON-divisionsposter for hele sekvensen, som indeholder samleinstruktioner, der gør det muligt at vise og downloade den fulde sekvens uden problemer. Mange CON-poster indeholder også annotationer.

UDBYGNING AF DATABASEN

Sekvenserne og de biologiske annotationer i GenBank og de samarbejdende databaser EMBL og DDBJ indsendes primært af individuelle forfattere til en af de tre databaser eller af sekventeringscentre i form af partier af EST-, STS-, GSS-, HTC-, WGS- eller HTG-sekvenser. Der udveksles dagligt oplysninger med DDBJ og EMBL, således at de daglige opdateringer fra NCBI-serverne indeholder de senest tilgængelige sekvensdata fra alle kilder.

Direkte elektronisk indsendelse

Næsten alle poster kommer ind i GenBank som direkte elektroniske indsendelser (Author Webpage), og størstedelen af forfatterne bruger BankIt- eller Sequin-programmerne. Mange tidsskrifter kræver, at forfattere med sekvensdata skal indsende dataene til en offentlig database som en betingelse for offentliggørelse.

GenBank-medarbejdere kan normalt tildele et adgangsnummer til en sekvensindsendelse inden for to arbejdsdage efter modtagelsen, og det sker med en hastighed på næsten 1600 om dagen. Adgangsnummeret tjener som bekræftelse på, at sekvensen er blevet indsendt, og gør det muligt for læsere af artikler, hvori sekvensen er citeret, at finde dataene frem. Direkte indsendelser får en kvalitetssikringskontrol, som omfatter kontrol af vektorkontaminering, korrekt oversættelse af kodningsregioner, korrekt taxonomi og korrekte bibliografiske citater. Et udkast til GenBank-rekordet sendes tilbage til forfatteren til gennemsyn, inden det indgår i databasen. Forfatterne kan anmode om, at deres sekvenser behandles fortroligt, indtil de offentliggøres. Da GenBank-politikken kræver, at deponerede sekvensdata offentliggøres, når sekvensen eller accessionsnummeret offentliggøres, instrueres forfatterne om at informere GenBank-personalet om datoen for offentliggørelsen af den artikel, hvori sekvensen citeres, for at sikre en rettidig frigivelse af dataene. Selv om det kun er den videnskabsmand, der har indsendt sekvensdata eller annotationer, der har tilladelse til at ændre dem, opfordres alle brugere til at indberette forsinkelser i frigivelsen af data eller mulige fejl eller udeladelser til GenBank på [email protected].

NCBI arbejder tæt sammen med sekventeringscentre for at sikre rettidig indarbejdelse af bulkdata i GenBank med henblik på offentlig frigivelse. GenBank tilbyder særlige batchprocedurer for store sekventeringsgrupper for at lette indsendelse af data, herunder programmet “tbl2asn”, der er beskrevet på Author Webpage.

Indgivelse ved hjælp af BankIt

Omkring en tredjedel af forfatternes indsendelser modtages via NCBI’s webbaserede dataindgivelsesværktøj, BankIt (Author Webpage). Med BankIt kan forfatterne indtaste sekvensoplysninger direkte i en formular og tilføje biologiske annotationer som f.eks. kodningsområder eller mRNA-funktioner. Fritekstfelter, listefelter og pull-down-menuer gør det muligt for indsenderen at beskrive sekvensen yderligere uden at skulle lære formateringsregler eller begrænsede ordforråd. BankIt validerer indsendelser, markerer mange almindelige fejl og kontrollerer for vektorkontaminering ved hjælp af en variant af BLAST kaldet Vecscreen, før der oprettes et udkast til en registrering i GenBank flat file format, som indsenderen kan gennemgå. BankIt er det foretrukne værktøj til enkle indsendelser, især når der kun skal indsendes en enkelt eller et lille antal poster (7). BankIt kan også bruges af indsendere til at opdatere deres eksisterende GenBank-poster.

Indsendelse ved hjælp af Sequin og tbl2asn

NCBI tilbyder også et selvstændigt indsendelsesprogram til flere platforme kaldet Sequin (Author Webpage), som kan bruges interaktivt med andre NCBI-sekvenshentnings- og analyseværktøjer. Sequin håndterer enkle sekvenser som f.eks. en cDNA samt segmenterede indtastninger, fylogenetiske undersøgelser, populationsundersøgelser, mutationsundersøgelser, miljøprøver og alignments, som BankIt og andre webbaserede indsendelsesværktøjer ikke er velegnede til. Sequin har praktiske redigeringsmuligheder og komplekse annotationer og indeholder en række indbyggede valideringsfunktioner til kvalitetssikring. Desuden er Sequin i stand til at håndtere store sekvenser, såsom Escherichia coli-genomet på 5,6 Mb, og læse et komplet supplement af annotationer via enkle tabeller. Versioner til Macintosh-, PC- og Unix-computere er tilgængelige via anonym FTP på (Author Webpage) i mappen “sequin”. Når en indsendelse er afsluttet, kan indsendere sende Sequin-filen pr. e-mail til adressen ([email protected]).

Indsendere af store, stærkt annoterede genomer kan finde det praktisk at bruge ‘tbl2asn’, som der henvises til ovenfor under ‘Direkte indsendelse’, til at konvertere en tabel med annotationer, der er genereret via en annotationspipeline, til en ASN.1 record, der er egnet til indsendelse til GenBank.

Indgivelse af stregkode-sekvenser

The Consortium for the Barcode of Life (CBOL) er et internationalt initiativ til udvikling af DNA-stregkodning som et værktøj til karakterisering af arter af organismer ved hjælp af en kort DNA-sekvens, der stammer fra en del af cytochrome oxidase subunit I-genet. NCBI har i samarbejde med CBOL (Author Webpage) oprettet et online-værktøj til masseindberetning af stregkodesekvenser til GenBank (Author Webpage), som giver brugerne mulighed for at uploade filer med et parti sekvenser med tilhørende kildeoplysninger. Det forventes, at dette værktøj vil blive anvendt til andre typer af bulkindberetninger i den nærmeste fremtid.

Sekvensidentifikatorer og accession numre

Hver GenBank-rekord, der består af både en sekvens og dens annotationer, tildeles en unik identifikator, accession nummeret, der deles på tværs af de tre samarbejdende databaser (GenBank, DDBJ, EMBL) og forbliver konstant i løbet af rekordens levetid, selv når der sker en ændring i sekvensen eller annotationen. Hver version af DNA-sekvensen i en GenBank-registrering er også tildelt en unik NCBI-identifikator, kaldet en “gi”, som vises på VERSION-linjen i GenBank flatfile-registreringer efter accessionsnummeret. En tredje identifikator af formen “Accession.version”, som også vises på VERSION-linjen i flatfile-poster, indeholder de oplysninger, der er indeholdt i både gi-nummeret og accession-nummeret. En post, der optræder i databasen for første gang, har en “Accession.version”-identifikator svarende til ACCESSION-nummeret for GenBank-posten efterfulgt af “.1” for at angive den første version af sekvensen for posten, f.eks.

ACCESSION AF000001

VERSION AF000001.1 GI: 987654321

Når der foretages en ændring af en sekvens, der er angivet i en GenBank-record, udstedes et nyt gi-nummer til sekvensen, og versionsudvidelsen af “Accession.version”-identifikatoren forøges. Accessionsnummeret for posten som helhed forbliver uændret, og den ældre sekvens forbliver tilgængelig under det gamle “Accession.version”-identifikator og gi.

Et lignende system følger ændringer i de tilsvarende proteinoversættelser. Disse identifikatorer vises som kvalifikatorer for CDS-funktioner i FEATURES-delen af en GenBank-post, f.eks. /protein_id=’AAA00001.1′. Proteinsekvensoversættelser får også deres eget unikke gi-nummer, der vises som en anden kvalifikator på CDS-funktionen, f.eks. /db_xref=’ GI:1233445′.

Sikring af stabil adgang til sekvensdata

Det bliver stadig mere populært for forskningsgrupper at dele nye biologiske sekvenser og opdatere eksisterende sekvenser ved direkte at lægge dataene ud på nettet. Selv om dette er en bekvem og effektiv måde at dele dataene på blandt en række samarbejdspartnere, opstår der tre væsentlige problemer, hvis de oprindelige data og opdateringer ikke også indsendes til et centralt arkiv; dataenes adgangstid kan blive reduceret, dataenes fulde biologiske kontekst kan ikke realiseres, og eksisterende data i stærkt anvendte centraliserede databaser vil blive forældede.

Den flygtige karakter af meget af indholdet på nettet er en del af den almindelige oplevelse for webbrugere. I et forsøg på at kvantificere indholdets levetid blev 360 tilfældigt udvalgte websider fulgt i en periode på 4 år, og der blev målt en halveringstid på kun 2 år for dette sæt (9). Selv om en velholdt webside helt sikkert kan bestå i længere tid end 2 år, afspejler den relativt korte halveringstid, der er rapporteret for dette sæt sider, de mange faktorer, der kan gribe ind og påvirke adgangen til data, der er offentliggjort på nettet.

Selv i løbet af den tilgængelige levetid for sekvensdata, der er offentliggjort på nettet, kan den fulde biologiske kontekst af en sekvens imidlertid ikke realiseres, hvis sekvensen ikke bekvemt kan sammenlignes med andre – måske stammer den fra fjernt beslægtede organismer, der ligger uden for værtswebsidens anvendelsesområde.

Dertil kommer, at hvis opdateringer af sekvenser i centraliserede databaser foretages på en webside, men ikke også på de tilsvarende poster i den centrale database, vil de nyere data ikke nå ud til det bredere forskersamfund, og en stor del af dataenes virkning vil gå tabt.

Indgivelse af sekvensdata til et centraliseret arkiv som GenBank løser disse tre problemer. Forskere er sikret stabil adgang til dataene via versionerede to-måneders udgivelser, der er tilgængelige via FTP, NCBI-vedligeholdte samt talrige tredjepartsgrænseflader til et ensartet datasæt og den arkivmæssige redundans, der tilbydes af det tredelte samarbejde International Nucleotide Sequence Databases. Ved at kombinere nye data med andre forskeres data fra hele verden inden for en central database får man en bred biologisk kontekst, der stimulerer opdagelser – ved at holde hver enkelt sekvens opdateret forstørres nytten af alle sekvenserne i databasen.

HENTNING AF GENBank-DATA

Entrez-systemet

Sekvensregistrene i GenBank er tilgængelige via Entrez (Author Webpage), et fleksibelt system til søgning af databaser, der dækker over 30 biologiske databaser. Disse omfatter DNA- og proteinsekvenser fra GenBank og andre kilder, genomkort, populations-, fylogenetiske og miljømæssige sekvenssæt, genekspressionsdata, NCBI-taksonomien, oplysninger om proteindomæner og proteinstrukturer fra Molecular Modeling Database, MMDB (10); hver database er knyttet til den videnskabelige litteratur via PubMed og PubMed Central.

Søgning efter sekvenslighed medBLAST

Søgning efter sekvenslighed er den mest grundlæggende og hyppigste type analyse, der udføres på GenBank-data. NCBI tilbyder BLAST-familien (Author Webpage) af programmer til at finde ligheder mellem en forespørgselssekvens og databasens sekvenser (11,12). BLAST-søgninger kan udføres på NCBI’s websted eller via et sæt standalone-programmer, der distribueres via FTP. BLAST behandles i en særskilt artikel i dette nummer (4).

Opnåelse af GenBank via FTP

NCBI distribuerer GenBank-udgivelser i det traditionelle fladfilformat samt i det Abstract Syntax Notation (ASN.1)-format, der anvendes til intern vedligeholdelse. Den komplette GenBank-udgave, der udgives to gange om måneden, og de daglige opdateringer, som også indeholder sekvensdata fra EMBL og DDBJ, er tilgængelige via anonym FTP fra NCBI på (Author Webpage) samt fra et spejlwebsted på University of Indiana (Author Webpage). Den komplette udgave i fladfilformat er tilgængelig som komprimerede filer i mappen “genbank” med et ikke-kumulativt sæt af opdateringer i “daily-nc”. Der findes et script i mappen “tools” på FTP-stedet GenBank til at konvertere et sæt daglige opdateringer til en kumulativ opdatering.

MAILING ADDRESS

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tlf.: +1 301 496 2475; fax: +1 301 480 9241.

ELEKTRONISKE ADRESSER

NCBI-hjemmeside: [email protected]

Indgivelse af sekvensdata til GenBank: [email protected]

Revisioner af eller meddelelse om frigivelse af “fortrolige” GenBank-posteringer: [email protected]

Generelle oplysninger om NCBI og tjenester: [email protected]

CITERING af GenBank

Hvis du bruger GenBank-databasen i din offentliggjorte forskning, beder vi om, at denne artikel citeres.

Funding til betaling af Open Access-publikationsomkostningerne for denne artikel blev stillet til rådighed af National Institutes of Health.

Interessekonflikterklæring. Ingen erklæret.

Benson

D.A.

Karsch-Mizrachi

Lipman

D.J.

Ostell

Wheeler

D.L.

GenBank

Nucleic Acids Res.

2006

, vol.

(pg.

–

)

Cochrane

Aldebert

Althorpe

Andersson

Baker

Baldwin

Bates

Bhattacharyya

Browne

van denBroek

, et al.

EMBL Nucleotide Sequence Database: developments in 2005

Nucleic Acids Res.

2006

, vol.

(pg.

–

)

Okubo

Sugawara

Gojobori

Tateno

DDBJ in preparation for overview of research activities behind data submissions

Nucleic Acids Res.

2006

, vol.

(pg.

–

)

Wheeler

D.L.

Barrett

Benson

D.A.

Bryant

S.H.

Canese

Chetvernin

Church

D.M.

DiCuccio

Edgar

Federhen

, et al.

Database resources of the National Center for Biotechnology Information

Nucleic Acids Res.

2006

, vol.

(pg.

173

–

180

)

Boguski

M.S.

Lowe

T.M.

Tolstoshev

C.M.

dbEST-database for ‘expressed sequence tags’

Nature Genet.

1993

, vol.

(pg.

332

–

333

)

Smith

M.W.

Holmsen

A.L.

Wei

Y.H.

Peterson

Evans

G.A.

Genomic sequence sampling: a strategy for high resolution sequence-based physical mapping of complex genomes

Nature Genet.

1994

, vol.

(pg.

–

)

Kans

Ouellette

. ,

Bioinformatik: A Practical Guide to the Analysis of Genes and Proteins Chapter Submitting DNA Sequences to the Databases

2001

John Wiley and Sons, Inc.

(pg.

–

)

Kawai

Shinagawa

Shibata

Yoshino

Itoh

Ishii

Arakawa

Hara

Fukunishi

Konno

, et al.

Functional annotation of a full-length mouse cDNA collection

Nature

2001

, vol.

409

(pg.

685

–

690

)

Koehler

Websideskift og vedholdenhed – en fireårig longitudinel undersøgelse

J. Am. Soc. Inform. Sci. Technol.

2002

, vol.

(pg.

162

–

171

)

Marchler-Bauer

Anderson

J.B.

Cherukuri

P.F.

DeWeese-Scott

Geer

L.Y.

Gwadz

Hurwitz

D.I.

Jackson

J.D.

, et al.

CDD: a Conserved Domain Database for protein classification

Nucleic Acids Res.

2005

, vol.

(pg.

192

–

196

)

Altschul

S.F.

Madden

T.L.

Schäffer

A.A.

Zhang

Miller

Lipman

D.J.

Gapped BLAST and PSI-BLAST: a new generation of protein database search programs

Nucleic Acids Res.

1997

, vol.

(pg.

3389

–

3402

)

Zhang

Schäffer

A.A.

Miller

Madden

T.L.

Lipman

D.J.

Koonin

E.V.

Altschul

S.F.

Protein sequence similarity searches using patterns as seeds

Nucleic Acids Res.

1998

, vol.

(pg.

3986

–

3990

)

Abstract

INDLEDNING

ORGANISERING AF DATABASEN

Sekvensbaseret taksonomi

GenBank-poster og -afdelinger

Expressed sequence tags

Sequence-tagged sites (STS’er), genome survey sequences (GSS’er) og environmental sample sequences (ENV)

High-throughput genomic (HTC) og high-throughput cDNA (HTC) sekvenser

Whole genome shotgun sequence (WGS)

Specielle registreringstyper

Third Party Annotation

GenBank CON-rekord for assemblies of smaller records

UDBYGNING AF DATABASEN

Direkte elektronisk indsendelse

Indgivelse ved hjælp af BankIt

Indsendelse ved hjælp af Sequin og tbl2asn

Indgivelse af stregkode-sekvenser

Sekvensidentifikatorer og accession numre

Sikring af stabil adgang til sekvensdata

HENTNING AF GENBank-DATA

Entrez-systemet

Søgning efter sekvenslighed medBLAST

Opnåelse af GenBank via FTP

MAILING ADDRESS

ELEKTRONISKE ADRESSER

CITERING af GenBank

Skriv et svar Annuller svar