GenBank | Nucleic Acids Research

Abstract

GenBank (R) är en omfattande databas som innehåller offentligt tillgängliga nukleotidsekvenser för mer än 240 000 namngivna organismer, som främst erhållits genom inlämningar från enskilda laboratorier och batchinlämningar från storskaliga sekvenseringsprojekt. De flesta inlämningar görs med hjälp av det webbaserade programmet BankIt eller det fristående programmet Sequin, och accessionsnumren tilldelas av GenBank-personalen vid mottagandet. Dagligt datautbyte med EMBL Data Library i Europa och DNA Data Bank i Japan säkerställer global täckning. GenBank är tillgänglig via NCBI:s söksystem, Entrez, som integrerar data från de viktigaste DNA- och proteinsekvensdatabaserna tillsammans med information om taxonomi, genom, kartläggning, proteinstruktur och domäner samt biomedicinsk tidskriftslitteratur via PubMed. BLAST tillhandahåller sekvenslikhetssökningar i GenBank och andra sekvensdatabaser. Fullständiga tvåmånadersutgåvor och dagliga uppdateringar av GenBank-databasen finns tillgängliga via FTP. För att få tillgång till GenBank och dess relaterade sök- och analystjänster, börja på NCBI:s hemsida (Author Webpage).

INLEDNING

GenBank (1) är en omfattande offentlig databas med nukleotidsekvenser och stödjande bibliografiska och biologiska annotationer, som byggs upp och distribueras av National Center for Biotechnology Information (NCBI), en avdelning av National Library of Medicine (NLM), som är belägen på campuset för USA:s National Institutes of Health (NIH) i Bethesda, MD.

NCBI bygger GenBank i första hand genom att författarna skickar in sekvensdata och genom att de i stor skala skickar in EST (expressed sequence tag), GSS (genome survey sequence) och andra höggenomförandedata från sekvenseringscenter. US Office of Patents and Trademarks bidrar också med sekvenser från utfärdade patent. GenBank, EMBL Data Library (2) i Europa och DNA Databank of Japan (DDBJ) (3) utgör de internationella nukleotidsekvensdatabaserna och ingår i ett långvarigt samarbete där information utbyts dagligen för att säkerställa en enhetlig och omfattande samling av sekvensinformation. NCBI gör GenBank-data tillgängliga utan kostnad via Internet, via FTP och via ett brett utbud av webbaserade hämtnings- och analystjänster som arbetar med GenBank-data (4).

ORGANISERING AV DATABASEN

Sedan starten har GenBank fördubblats i storlek ungefär var 18:e månad. Den innehåller för närvarande över 65 miljarder nukleotidbaser från mer än 61 miljoner individuella sekvenser, och 15 miljoner nya sekvenser har lagts till under det senaste året. Bidrag från WGS-projekt (whole genome shotgun) kompletterar uppgifterna i de traditionella avdelningarna så att den totala mängden överstiger 145 miljarder baser. Kompletta genomer (Author Webpage) fortsätter att utgöra en växande del av databasen, med över 120 av mer än 370 kompletta mikrobiella genomer i GenBank deponerade under det senaste året. Antalet eukaryotgenom för vilka täckningen och sammansättningen är betydande fortsätter också att öka, med över 104 sammansättningar som nu är tillgängliga, inklusive det mänskliga referensgenomet.

Sekvensbaserad taxonomi

Databasens sekvenser klassificeras och kan sökas med hjälp av en omfattande sekvensbaserad taxonomi (Author Webpage) som har utvecklats av NCBI i samarbete med EMBL och DDBJ och med värdefull hjälp av externa rådgivare och kuratorer. Över 240 000 namngivna arter finns representerade i GenBank och nya arter läggs till i en takt av över 2 900 per månad. Ungefär 16 % av sekvenserna i GenBank är av mänskligt ursprung och 13 % av alla sekvenser är mänskliga ESTs. Efter Homo sapiens är de främsta arterna i GenBank när det gäller antalet baser Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis och Canis familiaris.

GenBank poster och avdelningar

Varje GenBank-post innehåller en kortfattad beskrivning av sekvensen, källorganismens vetenskapliga namn och taxonomi, bibliografiska referenser och en tabell med egenskaper (författarens webbsida) som listar områden av biologisk betydelse, t.ex. kodningsregioner och deras proteintranslationer, transkriptionsenheter, repetitionsregioner och platser för mutationer eller modifieringar.

Filerna i GenBank-distributionen har traditionellt delats in i ”avdelningar” som ungefär motsvarar taxonomiska grupper som bakterier (BCT), virus (VRL), primater (PRI) och gnagare (ROD). På senare år har divisioner lagts till för att stödja specifika sekvenseringsstrategier. Under de senaste åren har avdelningar lagts till för att stödja specifika sekvenseringsstrategier. Det rör sig bland annat om avdelningar för EST-sekvenser (exprimental sequence tag), genomundersökning (GSS), genomsekvenser med hög genomströmning (HTG), cDNA-sekvenser med hög genomströmning (HTC) och miljöprovssekvenser (ENV), vilket innebär att det finns totalt 18 avdelningar. För att underlätta filöverföringen delas de större avdelningarna, t.ex. EST och PRI, upp i flera filer för de två gånger i månaden publicerade GenBank-utgåvorna på NCBI:s FTP-webbplats.

Expressed sequence tags

ESTs fortsätter att vara en viktig källa till nya sekvensregistreringar och gensekvenser, och omfattar mer än 21 miljarder nukleotidbaser i GenBank-utgåva 155. Under det senaste året har antalet ESTs ökat med över 40 % till totalt 38,3 miljoner sekvenser som representerar mer än 1200 olika organismer. De organismer som representeras mest i EST-avdelningen är H.sapiens (7,8 miljoner poster), M.musculus (4,7 miljoner poster), O.sativa (1,2 miljoner poster), Z.mays (1,1 miljoner poster), B.taurus (1,1 miljoner poster) och D.rerio (1,1 miljoner poster). Som en del av den dagliga behandlingen av GenBank EST-data identifierar NCBI genom BLAST-sökningar alla homologier för nya EST-sekvenser och införlivar denna information i den tillhörande databasen dbEST (Author Webpage) (5). Uppgifterna i dbEST bearbetas ytterligare för att producera UniGene-databasen (Author Webpage) med mer än 1,2 miljoner genorienterade sekvenskluster som representerar över 70 organismer, som beskrivs närmare i (4).

Sequence-tagged sites (STSs), genome survey sequences (GSSs) och environmental sample sequences (ENV)

Sts-avdelningen i GenBank (Author Webpage) innehåller över 883 000 sekvenser, inklusive anonyma STSs baserade på genomisk sekvens samt genbaserade STSs härledda från 3′-ändarna av gener och ESTs. Dessa STS-poster innehåller vanligtvis kartläggningsinformation.

GSS-divisionen i GenBank (Author Webpage) har under det senaste året vuxit med 22 % till totalt 14,9 miljoner poster för över 600 organismer och omfattar över 9,4 miljarder nukleotidbaser. GSS-poster är huvudsakligen enskilda läsningar från bakteriella artificiella kromosomer (”BAC-ändar”) som används i en rad olika projekt för genomsekvensering. De mest representerade arterna i GSS-avdelningen är Z.mays (2,0 miljoner poster), M.musculus (1,5 miljoner poster), H.sapiens (970 000 poster) och C.familiaris (854 000 poster). GSS-poster för människor har använts (Author Webpage) tillsammans med STS-poster vid sammanställningen av BACs för Human Genome Project (6).

Env-divisionen av GenBank rymmer sekvenser som inte är WGS och som erhållits via miljöprovtagningsmetoder där källorganismen är okänd. Uppgifter i ENV-avdelningen innehåller ”ENV” i nyckelordsfältet och använder en ”/environmental_sample”-kvalificering i källfunktionen. Från och med GenBank release 155 innehöll ENV-avdelningen i GenBank över 275 000 sekvenser, omfattande 236 miljoner baspar, som representerar mer än 4900 studier.

High-throughput genomic (HTC) and high-throughput cDNA (HTC) sequences

HTHG-avdelningen i GenBank (Author Webpage) innehåller oavslutade storskaliga genomiska poster som håller på att övergå till ett färdigt tillstånd (7). Dessa poster betecknas som fas 0-3 beroende på datakvaliteten. När de når fas 3, det färdiga stadiet, flyttas HTG-posterna till den lämpliga organismdivisionen i GenBank. I samband med version 155 av GenBank innehöll HTG-avdelningen 15,9 miljarder baspar sekvenser, vilket är en ökning med nästan 3 miljarder baspar under det senaste året.

HTC-avdelningen i GenBank rymmer HTC-sekvenser. HTC-sekvenser är av utkastkvalitet men kan innehålla 5′-untranslated regions (5′-UTRs) och 3′-UTRs, partiella kodningsregioner och introner. HTC-sekvenser som är färdiga och av hög kvalitet flyttas till den lämpliga GenBank-avdelningen för organismen. GenBank release 155 innehöll mer än 441 000 HTC-sekvenser med sammanlagt mer än 539 miljoner baser. Ett projekt som genererar HTC-data beskrivs i (8).

Whole genome shotgun sequence (WGS)

Över 80 miljarder baser av WGS-sekvenser finns i GenBank som uppsättningar av WGS-contigs, varav många är försedda med annotationer, och som härrör från ett enda sekvenseringsprojekt. Dessa sekvenser har tilldelats accessionsnummer som består av ett projekt-ID med fyra bokstäver, följt av ett tvåsiffrigt versionsnummer och ett sexsiffrigt contig-ID. WGS-anslutningsnumret ”AAAA01072744” tilldelas således kontignummer ”072744” i den första versionen av projekt ”AAAA”. WGS-sekvenseringsprojekt har bidragit med över 18 miljoner contigs till GenBank, vilket är en ökning med 64 % under det senaste året. Dessa primära sekvenser har använts för att konstruera cirka 760 000 storskaliga sammansättningar av ställningar och kromosomer. WGS-projektets contigs för H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces och mer än 450 andra organismer och miljöprover är tillgängliga. För en fullständig förteckning över WGS-projekt med länkar till data, se författarens webbsida.

WGS-projekt kan kommenteras. Många genomprojekt med låg täckning innehåller dock ingen annotering. Eftersom dessa sekvensprojekt betraktas som utkast och inte kompletta kan dessa annotationer inte spåras från en sammansättningsversion till nästa och bör betraktas som preliminära.

Sändare av WGS-sekvenser, och genomiska sekvenser i allmänhet, uppmanas att använda en ny uppsättning bevistaggar av formen ”/experimental=text” och ”/inference=TYPE:text”, där ”TYPE” är en av ett antal standardinferenstyper och ”text” består av strukturerad text. Dessa nya kvalificerare ersätter ”evidence=experimental” respektive ”evidence=non-experimental” som inte längre stöds.

Speciella posttyper

Third Party Annotation

Third Party Annotation (TPA)-poster stödjer rapporteringen av publicerade sekvensannotationer som görs av en annan vetenskapsman än den som ursprungligen lämnat in den primära sekvensposten i DDBJ/EMBL/GenBank. TPA-poster kan delas in i två kategorier: ”experimentell”, där det finns ett direkt experimentellt bevis för att den annoterade molekylen existerar, och ”inferentiell”, där det experimentella beviset är indirekt. TPA-sekvenser kan skapas genom att sätta ihop ett antal primära sekvenser. Formatet för en TPA-post (t.ex. BK000016) liknar formatet för en konventionell GenBank-post, men innehåller etiketten ”TPA:” i början av varje definitionsrad och nyckelorden ”Third Party Annotation; TPA” i fältet Keywords. I fältet Comment i TPA-poster anges de primära sekvenser som använts för att sammanställa TPA-sekvensen; i fältet Primary anges basintervallen för de primära sekvenser som bidrar till TPA-sekvensen.

Över 5 000 TPA-poster finns i GenBank version 155, inklusive över 2 170 för Drosophila melanogaster, 950 för H.sapiens, 330 för O.sativa och 290 för M.musculus. TPA-sekvenser släpps inte till allmänheten förrän deras accessionsnummer eller sekvensdata och annotering publiceras i en biologisk tidskrift med expertgranskning. TPA-anmälningar till GenBank kan göras antingen med hjälp av BankIt eller Sequin. För mer information om TPA, se Author Webpage.

GenBank CON records for assemblies of smaller records

Om än många genom, t.ex. bakteriegenom, representeras i GenBank som enskilda sekvenser, är det ur dataöverförings- och analyssynpunkt önskvärt att bryta upp vissa mycket långa sekvenser, t.ex. delar av eukaryotagenom, i mindre segment. I dessa fall produceras CON-divisionsposter för hela sekvensen som innehåller monteringsinstruktioner för att möjliggöra en smidig visning och nedladdning av hela sekvensen. Många CON-poster innehåller också kommentarer.

BYGGNING AV DATABASEN

Sekvenserna och de biologiska kommentarerna i GenBank, och de samarbetande databaserna EMBL och DDBJ, skickas i första hand in av enskilda författare till någon av de tre databaserna, eller av sekvenseringscenter i form av EST-, STS-, GSS-, HTC-, WGS- eller HTG-sekvenser. Information utbyts dagligen med DDBJ och EMBL så att de dagliga uppdateringarna från NCBI:s servrar innehåller de senast tillgängliga sekvensdata från alla källor.

Direkt elektronisk inlämning

Nästan alla poster kommer in i GenBank som direkta elektroniska inlämningar (Author Webpage), och majoriteten av författarna använder programmen BankIt eller Sequin. Många tidskrifter kräver att författare med sekvensdata ska lämna in data till en offentlig databas som ett villkor för publicering.

GenBank-personal kan vanligtvis tilldela ett accessionnummer till en sekvensinlämning inom två arbetsdagar efter mottagandet, och gör det i en takt av nästan 1600 per dag. Accessionsnumret fungerar som en bekräftelse på att sekvensen har lämnats in och gör det möjligt för läsare av artiklar där sekvensen citeras att hämta uppgifterna. Direkta inskickade sekvenser granskas genom en kvalitetssäkring som omfattar kontroller av vektorkontaminering, korrekt översättning av kodningsregioner, korrekt taxonomi och korrekta bibliografiska citat. Ett utkast till GenBank-post skickas tillbaka till författaren för granskning innan den förs in i databasen. Författarna kan begära att deras sekvenser hålls konfidentiella fram till offentliggörandet. Eftersom GenBank-policyn kräver att deponerade sekvensdata offentliggörs när sekvensen eller accessionsnumret publiceras, uppmanas författarna att informera GenBank-personalen om publiceringsdatumet för den artikel i vilken sekvensen citeras för att säkerställa att uppgifterna offentliggörs i rätt tid. Även om endast den forskare som lämnat in sekvensdata eller annotationer får ändra dem, uppmanas alla användare att rapportera förseningar i frisläppandet av data eller eventuella fel eller utelämnanden till GenBank på [email protected].

NCBI har ett nära samarbete med sekvenseringscenter för att se till att bulkdata införlivas i tid i GenBank för offentlig publicering. GenBank erbjuder särskilda batchprocedurer för storskaliga sekvenseringsgrupper för att underlätta inlämning av data, inklusive programmet ”tbl2asn”, som beskrivs på Author Webpage.

Inlämning med hjälp av BankIt

Omkring en tredjedel av författarnas inlämningar tas emot via NCBI:s webbaserade verktyg för inlämning av data, BankIt (Author Webpage). Med BankIt kan författarna skriva in sekvensinformation direkt i ett formulär och lägga till biologiska kommentarer, t.ex. kodningsregioner eller mRNA-funktioner. Med hjälp av fria textrutor, listrutor och rullgardinsmenyer kan den som skickar in sekvensen beskriva den ytterligare utan att behöva lära sig formateringsregler eller begränsade vokabulärer. BankIt validerar inskickade sekvenser, markerar många vanliga fel och kontrollerar vektorkontaminering med hjälp av en variant av BLAST som kallas Vecscreen, innan den skapar ett utkast till en post i GenBank-format för att den som skickat in sekvensen ska kunna granska den. BankIt är det bästa verktyget för enkla inlämningar, särskilt när endast en eller ett litet antal poster ska lämnas in (7). BankIt kan också användas av de som lämnar in en ansökan för att uppdatera sina befintliga GenBank-poster.

Inlämning med hjälp av Sequin och tbl2asn

NCBI erbjuder också ett fristående program för inlämning på flera plattformar, Sequin (Author Webpage), som kan användas interaktivt tillsammans med andra NCBI-verktyg för sekvenshämtning och -analys. Sequin hanterar enkla sekvenser, t.ex. en cDNA, samt segmenterade poster, fylogenetiska studier, populationsstudier, mutationsstudier, miljöprover och anpassningar för vilka BankIt och andra webbaserade inlämningsverktyg inte är väl lämpade. Sequin har bekväm redigering och komplexa annoteringsmöjligheter och innehåller ett antal inbyggda valideringsfunktioner för kvalitetssäkring. Dessutom kan Sequin ta emot stora sekvenser, t.ex. den i Escherichia coli-genomet på 5,6 Mb, och läsa in ett fullständigt komplement av annotationer via enkla tabeller. Versioner för Macintosh-, PC- och Unix-datorer finns tillgängliga via anonym FTP på (Author Webpage) i katalogen ”sequin”. När en inlämning är klar kan inlämnarna skicka Sequin-filen via e-post till adressen ([email protected]).

Inlämnarna av stora, kraftigt annoterade genomer kan finna det lämpligt att använda ”tbl2asn”, som det hänvisas till ovan under ”Direkt inlämning”, för att omvandla en tabell med annotationer som genererats via en annoteringspipeline till en ASN.1 record som lämpar sig för inlämning till GenBank.

Inlämning av streckkodssekvenser

Consortium for the Barcode of Life (CBOL) är ett internationellt initiativ för att utveckla DNA-streckkodning som ett verktyg för att karakterisera arter av organismer med hjälp av en kort DNA-sekvens som härstammar från en del av genen för cytokromoxidas subenhet I. NCBI har i samarbete med CBOL (Author Webpage) skapat ett online-verktyg för massinlämning av streckkodssekvenser till GenBank (Author Webpage) som gör det möjligt för användare att ladda upp filer som innehåller ett parti av sekvenser med tillhörande källinformation. Man räknar med att detta verktyg kommer att användas för andra typer av bulksändningar inom en snar framtid.

Sekvensidentifierare och anslutningsnummer

Varje GenBank-post, som består av både en sekvens och dess annotationer, tilldelas en unik identifierare, anslutningsnumret, som delas av de tre samarbetsdatabaserna (GenBank, DDBJ, EMBL) och som förblir konstant under postens hela livstid, även när sekvensen eller annotationen förändras. Varje version av DNA-sekvensen i en GenBank-post tilldelas också en unik NCBI-identifierare, kallad ”gi”, som visas på VERSION-linjen i GenBank flatfile-posterna efter accessionsnumret. En tredje identifierare av formen ”Accession.version”, som också visas på VERSION-linjen i flatfile-posterna, innehåller den information som finns i både gi-numret och accessionsnumret. En post som förekommer i databasen för första gången har en ”Accession.version”-identifierare som motsvarar GenBank-postens ACCESSION-nummer följt av ”.1” för att ange den första versionen av sekvensen för posten, t.ex.

ACCESSION AF000001

VERSION AF000001.1 GI: 987654321

När en ändring görs i en sekvens som anges i en GenBank-post, utfärdas ett nytt gi-nummer för sekvensen och versionstillägget i identifieraren ”Accession.version” ökas. Accessionsnumret för posten som helhet förblir oförändrat och den äldre sekvensen förblir tillgänglig under den gamla ”Accession.version”-identifieraren och gi.

Ett liknande system spårar förändringar i motsvarande proteinöversättningar. Dessa identifierare visas som kvalificerare för CDS-funktioner i FEATURES-delen av en GenBank-post, t.ex. /protein_id=’AAA00001.1′. Översättningar av proteinsekvenser får också ett eget unikt gi-nummer, som visas som en andra kvalificerare på CDS-funktionen, t.ex. /db_xref=’ GI:1233445′.

Säkerställande av stabil tillgång till sekvensdata

Det blir alltmer populärt för forskargrupper att dela med sig av nya biologiska sekvenser och uppdatera befintliga sekvenser genom att lägga ut data direkt på webben. Detta är visserligen ett bekvämt och effektivt sätt att dela med sig av data till en grupp medarbetare, men om originaldata och uppdateringar inte också lämnas in till ett centralt arkiv uppstår tre betydande problem; dataens livslängd kan minskas, dataens fullständiga biologiska sammanhang kan inte realiseras och befintliga data i starkt använda centraliserade databaser kommer att bli föråldrade.

Den flyktiga karaktären hos en stor del av innehållet på webben är en del av den gemensamma erfarenheten för webbanvändare. I ett försök att kvantifiera innehållets livslängd följdes 360 slumpmässigt utvalda webbsidor under en period av fyra år, och en halveringstid på endast två år uppmättes för uppsättningen (9). Även om en väl underhållen webbsida säkert kan finnas kvar längre än 2 år, återspeglar den relativt korta halveringstid som rapporterats för denna uppsättning sidor de många faktorer som kan ingripa för att påverka tillgången till data som publiceras på webben.

Även under den tillgängliga livslängden för sekvensdata som publiceras på webben kanske man inte inser det fullständiga biologiska sammanhanget för en sekvens om sekvensen inte kan jämföras på ett bekvämt sätt med andra – kanske härstammar den från organismer som är långt ifrån besläktade och som ligger utanför räckvidden för webbsidan som är värd för webbsidan.

Och om uppdateringar av sekvenser som finns i centraliserade databaser görs på en webbsida, men inte också på motsvarande poster i den centrala databasen, kommer de nyare uppgifterna inte att nå det bredare forskarsamhället och en stor del av uppgifternas effekt kommer att gå förlorad.

Insändning av sekvensdata till ett centraliserat arkiv som GenBank löser dessa tre problem. Forskare garanteras en stabil tillgång till data via versionerade tvåmånadersutgåvor som är tillgängliga via FTP, NCBI-underhållna och många gränssnitt från tredje part till en enhetlig datamängd samt den arkivredundans som erbjuds av det tredelade samarbetet inom International Nucleotide Sequence Databases. Att kombinera nya data med andra forskares data från hela världen i en central databas ger ett brett biologiskt sammanhang som stimulerar till upptäckter – att hålla varje sekvens aktuell ökar nyttan av alla sekvenser i databasen.

HETTERING GenBank DATA

Entrez-systemet

Sekvenserna i GenBank kan nås via Entrez (Author Webpage), ett flexibelt system för databassökning som omfattar mer än 30 biologiska databaser. Dessa omfattar DNA- och proteinsekvenser från GenBank och andra källor, genomkartor, populations-, fylogenetiska och miljörelaterade sekvenser, genuttrycksdata, NCBI:s taxonomi, information om proteindomäner, proteinstrukturer från Molecular Modeling Database, MMDB (10); varje databas är kopplad till den vetenskapliga litteraturen via PubMed och PubMed Central.

Sökning efter sekvenslikhet genom BLAST

Sökning efter sekvenslikhet är den mest grundläggande och frekventa typen av analys som utförs på GenBank-data. NCBI erbjuder programfamiljen BLAST (Author Webpage) för att upptäcka likheter mellan en söksekvens och databassekvenser (11,12). BLAST-sökningar kan utföras på NCBI:s webbplats eller via en uppsättning fristående program som distribueras via FTP. BLAST diskuteras i en separat artikel i detta nummer (4).

Att få GenBank via FTP

NCBI distribuerar GenBank-utgåvor i det traditionella plattfilformatet samt i ASN.1-formatet (Abstract Syntax Notation) som används för internt underhåll. Den fullständiga GenBank-utgåvan som publiceras två gånger i månaden och de dagliga uppdateringarna, som också innehåller sekvensdata från EMBL och DDBJ, är tillgängliga via anonym FTP från NCBI på (Author Webpage) samt från en spegelwebbplats vid University of Indiana (Author Webpage). Den fullständiga utgåvan i plattfilformat finns som komprimerade filer i katalogen ”genbank” med en icke-kumulativ uppsättning uppdateringar i ”daily-nc”. Ett skript finns i katalogen ”tools” på GenBank FTP-site för att konvertera en uppsättning dagliga uppdateringar till en kumulativ uppdatering.

Postadress

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Telefon: +1 301 496 2475, fax: +1 301 480 9241.

ELEKTRONISKA ADRESSER

NCBI Home Page: [email protected]

Inlämning av sekvensdata till GenBank: [email protected]

Revisioner av eller anmälan om utlämnande av ”konfidentiella” GenBank-poster: [email protected]

Allmän information om NCBI och tjänster: [email protected]

CITERING av GenBank

Om du använder GenBank-databasen i din publicerade forskning ber vi dig att citera denna artikel.

Finansiering för att betala Open Access-publiceringsavgifterna för denna artikel tillhandahölls av National Institutes of Health.

Intressekonfliktförklaring. Inga deklarerade.

Benson

D.A.

Karsch-Mizrachi

Lipman

D.J.

Ostell

Wheeler

D.L.

GenBank

Nucleic Acids Res.

2006

, vol.

(pg.

–

)

Cochrane

Aldebert

Althorpe

Andersson

Baker

Baldwin

Bates

Bhattacharyya

Browne

van denBroek

, et al.

EMBL Nucleotide Sequence Database: developments in 2005

Nucleic Acids Res.

2006

, vol.

(pg.

–

)

Okubo

Sugawara

Gojobori

Tateno

DDBJ in preparation for overview of research activities behind data submissions

Nucleic Acids Res.

2006

, vol.

(pg.

–

)

Wheeler

D.L.

Barrett

Benson

D.A.

Bryant

S.H.

Canese

Chetvernin

Church

D.M.

DiCuccio

Edgar

Federhen

, et al.

Databasresurser från National Center for Biotechnology Information

Nucleic Acids Res.

2006

, vol.

(pg.

173

–

180

)

Boguski

M.S.

Lowe

T.M.

Tolstoshev

C.M.

dbEST-database for ’expressed sequence tags’

Nature Genet.

1993

, vol.

(pg.

332

–

333

)

Smith

M.W.

Holmsen

A.L.

Wei

Y.H.

Peterson

Evans

G.A.

Genomic sequence sampling: a strategy for high resolution sequence-based physical mapping of complex genomes

Nature Genet.

1994

, vol.

(pg.

–

)

Kans

Ouellette

. ,

Bioinformatik: A Practical Guide to the Analysis of Genes and Proteins Chapter Submitting DNA Sequences to the Databases

2001

John Wiley and Sons, Inc.

(pg.

–

)

Kawai

Shinagawa

Shibata

Yoshino

Itoh

Ishii

Arakawa

Hara

Fukunishi

Konno

, et al.

Functional annotation of a full-length mouse cDNA collection

Nature

2001

, vol.

409

(pg.

685

–

690

)

Koehler

Webbsidebyte och uthållighet – en fyraårig longitudinell studie

J. Am. Soc. Inform. Sci. Technol.

2002

, vol.

(pg.

162

–

171

)

Marchler-Bauer

Anderson

J.B.

Cherukuri

P.F.

DeWeese-Scott

Geer

L.Y.

Gwadz

Hurwitz

D.I.

Jackson

J.D.

, et al.

CDD: a Conserved Domain Database for protein classification

Nucleic Acids Res.

2005

, vol.

(pg.

192

–

196

)

Altschul

S.F.

Madden

T.L.

Schäffer

A.A.

Zhang

Miller

Lipman

D.J.

Gapped BLAST and PSI-BLAST: a new generation of protein database search programs

Nucleic Acids Res.

1997

, vol.

(pg.

3389

–

3402

)

Zhang

Schäffer

A.A.

Miller

Madden

T.L.

Lipman

D.J.

Koonin

E.V.

Altschul

S.F.

Protein sequence similarity searches using patterns as seeds

Nucleic Acids Res.

1998

, vol.

(pg.

3986

–

3990

)

Abstract

INLEDNING

ORGANISERING AV DATABASEN

Sekvensbaserad taxonomi

GenBank poster och avdelningar

Expressed sequence tags

Sequence-tagged sites (STSs), genome survey sequences (GSSs) och environmental sample sequences (ENV)

High-throughput genomic (HTC) and high-throughput cDNA (HTC) sequences

Whole genome shotgun sequence (WGS)

Speciella posttyper

Third Party Annotation

GenBank CON records for assemblies of smaller records

BYGGNING AV DATABASEN

Direkt elektronisk inlämning

Inlämning med hjälp av BankIt

Inlämning med hjälp av Sequin och tbl2asn

Inlämning av streckkodssekvenser

Sekvensidentifierare och anslutningsnummer

Säkerställande av stabil tillgång till sekvensdata

HETTERING GenBank DATA

Entrez-systemet

Sökning efter sekvenslikhet genom BLAST

Att få GenBank via FTP

Postadress

ELEKTRONISKA ADRESSER

CITERING av GenBank

Lämna ett svar Avbryt svar