GenBank

Abstract

GenBank (R) è un database completo che contiene sequenze nucleotidiche pubblicamente disponibili per più di 240.000 organismi nominati, ottenuti principalmente attraverso l’invio da parte di singoli laboratori e lotti di progetti di sequenziamento su larga scala. La maggior parte delle presentazioni sono fatte usando il programma BankIt basato sul web o il programma autonomo Sequin e i numeri di adesione sono assegnati dal personale di GenBank al momento della ricezione. Lo scambio quotidiano di dati con la EMBL Data Library in Europa e la DNA Data Bank del Giappone assicura una copertura mondiale. GenBank è accessibile attraverso il sistema di recupero dell’NCBI, Entrez, che integra i dati dai principali database di sequenze di DNA e proteine insieme a tassonomia, genoma, mappatura, struttura proteica e informazioni sul dominio, e la letteratura delle riviste biomediche tramite PubMed. BLAST fornisce ricerche di similarità di sequenza di GenBank e altri database di sequenze. Rilasci bimestrali completi e aggiornamenti giornalieri del database GenBank sono disponibili via FTP. Per accedere a GenBank e ai relativi servizi di recupero e analisi, iniziare dalla Homepage di NCBI (pagina web dell’autore).

INTRODUZIONE

GenBank (1) è un completo database pubblico di sequenze nucleotidiche e di annotazioni bibliografiche e biologiche di supporto, costruito e distribuito dal National Center for Biotechnology Information (NCBI), una divisione della National Library of Medicine (NLM), situata nel campus degli US National Institutes of Health (NIH) a Bethesda, MD.

NCBI costruisce GenBank principalmente dall’invio di dati di sequenza da parte degli autori e dall’invio in massa di expressed sequence tag (EST), genome survey sequence (GSS), e altri dati ad alta produttività dai centri di sequenziamento. Anche l’Ufficio statunitense dei brevetti e dei marchi commerciali contribuisce con le sequenze dei brevetti rilasciati. GenBank, la EMBL Data Library (2) in Europa, e la DNA Databank of Japan (DDBJ) (3) comprendono le International Nucleotide Sequence Databases, e sono membri di una lunga collaborazione in cui le informazioni vengono scambiate quotidianamente per garantire una raccolta uniforme e completa di informazioni sulle sequenze. NCBI rende i dati GenBank disponibili gratuitamente su Internet, via FTP e attraverso una vasta gamma di servizi di recupero e analisi basati sul web che operano sui dati GenBank (4).

ORGANIZZAZIONE DEL DATABASE

Dalla sua nascita, GenBank è raddoppiato in dimensioni ogni 18 mesi circa. Attualmente contiene oltre 65 miliardi di basi nucleotidiche da più di 61 milioni di sequenze individuali, con 15 milioni di nuove sequenze aggiunte nell’ultimo anno. I contributi dei progetti WGS (whole genome shotgun) completano i dati nelle divisioni tradizionali per portare il totale oltre i 145 miliardi di basi. I genomi completi (pagina web dell’autore) continuano a rappresentare una parte crescente del database, con oltre 120 degli oltre 370 genomi microbici completi in GenBank depositati nell’ultimo anno. Anche il numero di genomi eucarioti per i quali la copertura e l’assemblaggio sono significativi continua ad aumentare, con oltre 104 assemblaggi ora disponibili, compreso quello del genoma umano di riferimento.

Tassonomia basata sulla sequenza

Le sequenze del database sono classificate e possono essere interrogate usando una tassonomia completa basata sulla sequenza (pagina web dell’autore) sviluppata da NCBI in collaborazione con EMBL e DDBJ e con il prezioso aiuto di consulenti e curatori esterni. Oltre 240 000 specie nominate sono rappresentate in GenBank e nuove specie vengono aggiunte al ritmo di oltre 2900 al mese. Circa il 16% delle sequenze in GenBank sono di origine umana e il 13% di tutte le sequenze sono EST umane. Dopo Homo sapiens, le prime specie in GenBank in termini di numero di basi sono Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis e Canis familiaris.

Registrazioni e divisioni GenBank

Ogni voce GenBank include una descrizione concisa della sequenza, il nome scientifico e la tassonomia dell’organismo di origine, riferimenti bibliografici, e una tabella di caratteristiche (pagina web dell’autore) che elenca le aree di significato biologico, come le regioni codificanti e le loro traduzioni proteiche, unità di trascrizione, regioni di ripetizione, e siti di mutazioni o modifiche.

I file nella distribuzione GenBank sono stati tradizionalmente suddivisi in “divisioni” che corrispondono approssimativamente a gruppi tassonomici come batteri (BCT), virus (VRL), primati (PRI) e roditori (ROD). Negli ultimi anni, sono state aggiunte divisioni per supportare specifiche strategie di sequenziamento. Negli ultimi anni, sono state aggiunte divisioni per supportare specifiche strategie di sequenziamento. Queste includono divisioni per le sequenze EST (expressed sequence tag), GSS (genome survey), HTG (high throughput genomic), HTC (high throughput cDNA) e ENV (environmental sample), per un totale di 18 divisioni. Per comodità nel trasferimento dei file, le divisioni più grandi, come EST e PRI, sono partizionate in file multipli per i rilasci bimestrali di GenBank sul sito FTP dell’NCBI.

Espressi tag di sequenza

Gli EST continuano ad essere una fonte importante di nuovi record di sequenza e sequenze di geni, comprendendo oltre 21 miliardi di basi nucleotidiche nel rilascio 155 di GenBank. Nell’ultimo anno, il numero di EST è aumentato di oltre il 40% per un totale di 38,3 milioni di sequenze che rappresentano più di 1200 organismi diversi. I principali organismi rappresentati nella divisione EST sono H.sapiens (7,8 milioni di record), M.musculus (4,7 milioni di record), O.sativa (1,2 milioni di record), Z.mays (1,1 milioni di record), B.taurus (1,1 milioni di record) e D.rerio (1,1 milioni di record). Come parte della sua elaborazione quotidiana dei dati GenBank EST, NCBI identifica attraverso ricerche BLAST tutte le omologie per le nuove sequenze EST e incorpora queste informazioni nel database di accompagnamento, dbEST (Author Webpage) (5). I dati in dbEST sono elaborati ulteriormente per produrre il database UniGene (pagina web dell’autore) di più di 1,2 milioni di cluster di sequenze orientate ai geni che rappresentano più di 70 organismi, descritto più dettagliatamente in (4).

Sequence-tagged sites (STSs), genome survey sequences (GSSs) e environmental sample sequences (ENV)

La divisione STS di GenBank (Author Webpage) contiene oltre 883 000 sequenze, inclusi STS anonimi basati su sequenza genomica così come STS basati su geni derivati dalle estremità 3′ di geni ed EST. Questi record STS di solito includono informazioni di mappatura.

La divisione GSS di GenBank (Author Webpage) è cresciuta nell’ultimo anno del 22% per un totale di 14,9 milioni di record per oltre 600 organismi e comprende oltre 9,4 miliardi di basi nucleotidiche. I record GSS sono prevalentemente letture singole da cromosomi artificiali batterici (‘BAC-ends’) utilizzati in una varietà di progetti di sequenziamento del genoma. Le specie più rappresentate nella divisione GSS sono Z.mays (2,0 milioni di record), M.musculus (1,5 milioni di record), H.sapiens (970 000 record) e C.familiaris (854 000 record). I record GSS umani sono stati usati (pagina web dell’autore) insieme ai record STS per la compilazione dei BAC per il Progetto Genoma Umano (6).

La divisione ENV di GenBank ospita sequenze non WGS ottenute con metodi di campionamento ambientale in cui l’organismo di origine è sconosciuto. I record nella divisione ENV contengono “ENV” nel campo della parola chiave e usano un qualificatore “/environmental_sample” nella caratteristica di origine. A partire dalla versione 155 di GenBank, la divisione ENV di GenBank contiene oltre 275.000 sequenze, che comprendono 236 milioni di coppie di basi, che rappresentano più di 4900 studi.

Seguenze genomiche ad alta capacità (HTC) e cDNA ad alta capacità (HTC)

La divisione HTG di GenBank (pagina web dell’autore) contiene record genomici su larga scala non finiti che sono in transizione verso uno stato finito (7). Questi record sono designati come Fase 0-3 a seconda della qualità dei dati. Una volta raggiunta la fase 3, lo stato finito, i record HTG vengono spostati nella divisione appropriata dell’organismo di GenBank. A partire dalla versione 155 di GenBank, la divisione HTG conteneva 15,9 miliardi di paia di basi di sequenze, un aumento di quasi 3 miliardi di basi nell’ultimo anno.

La divisione HTC di GenBank ospita le sequenze HTC. Le HTC sono di qualità draft ma possono contenere regioni 5′ non tradotte (5′-UTR) e 3′-UTR, regioni codificanti parziali e introni. Le sequenze HTC che sono finite e di alta qualità sono spostate nella divisione GenBank dell’organismo appropriato. La release 155 di GenBank contiene più di 441 000 sequenze HTC per un totale di oltre 539 milioni di basi. Un progetto che genera dati HTC è descritto in (8).

Whole genome shotgun sequence (WGS)

Oltre 80 miliardi di basi di sequenza WGS appaiono in GenBank come set di contigs WGS, molti dei quali con annotazioni, provenienti da un singolo progetto di sequenziamento. A queste sequenze vengono assegnati numeri di adesione che consistono in un ID di progetto di quattro lettere, seguito da un numero di versione di due cifre e da un ID di contig di sei cifre. Quindi, il numero di adesione WGS ‘AAAA01072744’ è assegnato al contig numero ‘072744’ della prima versione del progetto ‘AAAA’. I progetti di sequenziamento WGS hanno contribuito con oltre 18 milioni di contig a GenBank, un aumento del 64% nell’ultimo anno. Queste sequenze primarie sono state utilizzate per costruire circa 760 000 assemblaggi su larga scala di scaffold e cromosomi. Sono disponibili contigs di progetti WGS per H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces, e più di 450 altri organismi e campioni ambientali. Per un elenco completo dei progetti WGS con i link ai dati, vedere la pagina web dell’autore.

I progetti WGS possono essere annotati. Tuttavia, molti progetti di genoma a bassa copertura non contengono annotazioni. Poiché questi progetti di sequenze sono considerati bozze e non completi, queste annotazioni potrebbero non essere tracciate da una versione di assemblaggio alla successiva e dovrebbero essere considerate preliminari.

Gli emittenti di sequenze WGS, e di sequenze genomiche in generale, sono invitati a utilizzare una nuova serie di tag di evidenza della forma ‘/experimental=text’ e ‘/inference=TYPE:text’, dove ‘TYPE’ è uno dei vari tipi di inferenza standard e ‘text’ è costituito da testo strutturato. Questi nuovi qualificatori sostituiscono ‘evidence=experimental’ e ‘evidence=non-experimental’, rispettivamente, che non sono più supportati.

Tipi di record speciali

Third Party Annotation

I record Third Party Annotation (TPA) supportano la segnalazione di annotazioni di sequenza pubblicate da uno scienziato diverso dall’autore originale del record della sequenza primaria in DDBJ/EMBL/GenBank. I record TPA rientrano in una delle due categorie, “sperimentale”, nel qual caso c’è una prova sperimentale diretta dell’esistenza della molecola annotata, e “inferenziale”, nel qual caso la prova sperimentale è indiretta. Le sequenze TPA possono essere create assemblando un certo numero di sequenze primarie. Il formato di un record TPA (ad esempio BK000016) è simile a quello di un record GenBank convenzionale ma include l’etichetta “TPA:” all’inizio di ogni linea di definizione e le parole chiave “Third Party Annotation; TPA” nel campo Keywords. Il campo Comment dei record TPA elenca le sequenze primarie usate per assemblare la sequenza TPA; il campo Primary fornisce gli intervalli di base delle sequenze primarie che contribuiscono alla sequenza TPA.

Oltre 5000 record TPA sono contenuti nella versione 155 di GenBank, compresi oltre 2170 per Drosophila melanogaster, 950 per H.sapiens, 330 per O.sativa e 290 per M.musculus. Le sequenze TPA non sono rilasciate al pubblico fino a quando i loro numeri di adesione o i dati di sequenza e le annotazioni non appaiono in una rivista biologica sottoposta a revisione paritaria. Le submission di TPA a GenBank possono essere fatte usando BankIt o Sequin. Per maggiori informazioni su TPA, vedi Author Webpage.

Registri CON di GenBank per assemblaggi di record più piccoli

Anche se molti genomi, come i genomi batterici, sono rappresentati in GenBank come sequenze singole, è auspicabile dal punto di vista del trasferimento dei dati e dell’analisi spezzare alcune sequenze molto lunghe, come porzioni di genomi eucarioti, in segmenti più piccoli. In questi casi, vengono prodotti record di divisione CON per l’intera sequenza che contengono istruzioni di assemblaggio per consentire la visualizzazione e il download senza soluzione di continuità della sequenza completa. Molti record CON includono anche annotazioni.

Costruzione della banca dati

Le sequenze e le annotazioni biologiche in GenBank, e le banche dati collaborative EMBL e DDBJ, sono presentate principalmente da singoli autori a una delle tre banche dati, o da centri di sequenziamento come lotti di sequenze EST, STS, GSS, HTC, WGS, o HTG. Le informazioni sono scambiate quotidianamente con DDBJ ed EMBL in modo che gli aggiornamenti giornalieri dai server NCBI incorporino i dati di sequenza più recentemente disponibili da tutte le fonti.

Invio elettronico diretto

Pirtualmente tutti i record entrano in GenBank come invii elettronici diretti (Author Webpage), con la maggior parte degli autori che usano i programmi BankIt o Sequin. Molte riviste richiedono agli autori con dati di sequenza di inviare i dati ad un database pubblico come condizione per la pubblicazione.

Il personale di GenBank può solitamente assegnare un numero di adesione ad una sequenza inviata entro due giorni lavorativi dalla ricezione, e lo fa ad un ritmo di quasi 1600 al giorno. Il numero di adesione serve come conferma che la sequenza è stata inviata e permette ai lettori di articoli in cui la sequenza è citata di recuperare i dati. Gli invii diretti ricevono una revisione di qualità che include controlli per la contaminazione dei vettori, la corretta traduzione delle regioni codificanti, la corretta tassonomia e le corrette citazioni bibliografiche. Una bozza del record GenBank viene passata all’autore per la revisione prima che entri nel database. Gli autori possono chiedere che le loro sequenze siano tenute riservate fino al momento della pubblicazione. Poiché la politica di GenBank richiede che i dati di sequenza depositati siano resi pubblici quando la sequenza o il numero di accesso sono pubblicati, gli autori sono istruiti ad informare lo staff di GenBank della data di pubblicazione dell’articolo in cui la sequenza è citata al fine di assicurare un rilascio tempestivo dei dati. Anche se solo lo scienziato che presenta la sequenza è autorizzato a modificare i dati o le annotazioni, tutti gli utenti sono incoraggiati a segnalare ritardi nel rilascio dei dati o possibili errori o omissioni a GenBank a [email protected].

NCBI lavora a stretto contatto con i centri di sequenziamento per garantire la tempestiva incorporazione dei dati di massa in GenBank per il rilascio pubblico. GenBank offre speciali procedure di batch per gruppi di sequenziamento su larga scala per facilitare l’invio dei dati, incluso il programma ‘tbl2asn’, descritto su Author Webpage.

Invio tramite BankIt

Circa un terzo degli invii degli autori sono ricevuti tramite lo strumento di invio dati basato sul web dell’NCBI, BankIt (Author Webpage). Usando BankIt, gli autori inseriscono informazioni sulla sequenza direttamente in un modulo e aggiungono annotazioni biologiche come regioni codificanti o caratteristiche dell’mRNA. Caselle di testo a forma libera, caselle di elenco e menu a tendina permettono all’autore di descrivere ulteriormente la sequenza senza dover imparare regole di formattazione o vocabolari ristretti. BankIt convalida gli invii, segnalando molti errori comuni, e controlla la contaminazione vettoriale utilizzando una variante di BLAST chiamata Vecscreen, prima di creare una bozza di record in formato GenBank flat file per l’inviante da rivedere. BankIt è lo strumento di scelta per le presentazioni semplici, specialmente quando deve essere presentato solo uno o un piccolo numero di record (7). BankIt può anche essere usato da chi invia per aggiornare i propri record GenBank esistenti.

Invio usando Sequin e tbl2asn

NCBI offre anche un programma autonomo di invio multipiattaforma chiamato Sequin (Author Webpage) che può essere usato interattivamente con altri strumenti NCBI di recupero e analisi delle sequenze. Sequin gestisce sequenze semplici come un cDNA, così come voci segmentate, studi filogenetici, studi di popolazione, studi di mutazione, campioni ambientali e allineamenti per i quali BankIt e altri strumenti di presentazione basati sul web non sono adatti. Sequin ha comode capacità di editing e di annotazioni complesse e contiene una serie di funzioni di convalida integrate per il controllo della qualità. Inoltre, Sequin è in grado di ospitare grandi sequenze, come quella del genoma di Escherichia coli di 5,6 Mb, e di leggere un complemento completo di annotazioni tramite semplici tabelle. Versioni per computer Macintosh, PC e Unix sono disponibili via FTP anonimo a (Author Webpage) nella directory ‘sequin’. Una volta completata la presentazione, gli autori possono inviare per e-mail il file Sequin all’indirizzo ([email protected]).

Gli autori di genomi grandi e pesantemente annotati possono trovare conveniente usare ‘tbl2asn’, a cui si fa riferimento sopra sotto ‘Presentazione diretta’, per convertire una tabella di annotazioni generate tramite una pipeline di annotazione in un record ASN.1

Invio di sequenze di codici a barre

Il Consortium for the Barcode of Life (CBOL) è un’iniziativa internazionale per sviluppare il codice a barre del DNA come strumento per caratterizzare le specie di organismi usando una breve sequenza di DNA derivata da una porzione del gene della subunità I della citocromo ossidasi. L’NCBI, in collaborazione con CBOL (pagina web dell’autore), ha creato uno strumento online per l’invio in massa di sequenze di codici a barre a GenBank (pagina web dell’autore) che permette agli utenti di caricare file contenenti un lotto di sequenze con le relative informazioni di origine. Si prevede che questo strumento sarà usato per altri tipi di invii di massa nel prossimo futuro.

Identificatori di sequenza e numeri di adesione

Ad ogni record GenBank, che consiste sia in una sequenza che nelle sue annotazioni, è assegnato un identificatore unico, il numero di adesione, che è condiviso tra i tre database che collaborano (GenBank, DDBJ, EMBL) e rimane costante per tutta la durata del record anche quando c’è un cambiamento alla sequenza o all’annotazione. Ad ogni versione della sequenza di DNA all’interno di un record GenBank è anche assegnato un unico identificatore NCBI, chiamato ‘gi’, che appare sulla linea VERSION dei record GenBank flatfile dopo il numero di adesione. Un terzo identificatore della forma ‘Accession.version’, anch’esso visualizzato nella riga VERSION dei record flatfile, contiene le informazioni presenti in entrambi i numeri gi e accession. Una voce che appare nel database per la prima volta ha un identificatore ‘Accession.version’ equivalente al numero di ACCESSIONE del record GenBank seguito da ‘.1’ per indicare la prima versione della sequenza per il record, ad esempio

ACCESSIONE AF000001

VERSIONE AF000001.1 GI: 987654321

Quando viene apportata una modifica a una sequenza data in un record GenBank, viene rilasciato un nuovo numero gi alla sequenza e l’estensione della versione dell’identificatore ‘Accession.version’ viene aumentata. Il numero di adesione per il record nel suo complesso rimane invariato e la vecchia sequenza rimane disponibile sotto il vecchio identificatore ‘Accession.version’ e il gi.

Un sistema simile traccia i cambiamenti nelle corrispondenti traduzioni delle proteine. Questi identificatori appaiono come qualificatori per le caratteristiche CDS nella parte FEATURES di una voce GenBank, ad esempio /protein_id=’AAA00001.1′. Le traduzioni delle sequenze proteiche ricevono anche il loro numero unico gi, che appare come un secondo qualificatore sulla caratteristica CDS, ad esempio /db_xref=’ GI:1233445′.

Assicurare un accesso stabile ai dati di sequenza

Sta diventando sempre più popolare per i gruppi di ricerca condividere nuove sequenze biologiche e aggiornare quelle esistenti pubblicando direttamente i dati sul web. Mentre questo è un modo conveniente ed efficace per condividere i dati tra un insieme di collaboratori, se i dati originali e gli aggiornamenti non vengono anche inviati a un repository centrale, sorgono tre problemi significativi: la durata di accesso dei dati può essere ridotta, il contesto biologico completo dei dati può non essere realizzato, e i dati esistenti in banche dati centralizzate molto utilizzate diventeranno obsoleti.

La natura effimera di gran parte del contenuto sul web è parte dell’esperienza comune degli utenti del web. In un tentativo di quantificare la durata del contenuto, 360 pagine web selezionate a caso sono state monitorate per un periodo di 4 anni, ed è stata misurata una semi-vita di soli 2 anni per l’insieme (9). Anche se una pagina web ben mantenuta può certamente persistere per più di 2 anni, l’emivita relativamente breve riportata per questo set di pagine riflette i molti fattori che possono intervenire per influenzare l’accesso ai dati pubblicati sul web.

Anche durante la vita accessibile dei dati di sequenza pubblicati sul web, tuttavia, il contesto biologico completo di una sequenza può non essere realizzato se la sequenza non può essere convenientemente confrontata con altre – forse derivate da organismi lontanamente correlati che sono al di là dello scopo della pagina web ospitante.

Inoltre, se gli aggiornamenti delle sequenze contenute nei database centralizzati vengono fatti su una pagina web, ma non anche sui record corrispondenti nel database centrale, i dati più recenti non raggiungeranno la comunità di ricerca più ampia e gran parte dell’impatto dei dati andrà perso.

La presentazione dei dati di sequenza a un archivio centralizzato come GenBank risolve questi tre problemi. Ai ricercatori viene assicurato un accesso stabile ai dati attraverso versioni bimestrali disponibili via FTP, le interfacce mantenute da NCBI e da numerose altre parti terze per un set di dati uniforme, e la ridondanza archivistica offerta dalla collaborazione tripartita International Nucleotide Sequence Databases. La combinazione di nuovi dati con quelli di altri ricercatori in tutto il mondo all’interno di un database centrale fornisce un ampio contesto biologico che stimola la scoperta – mantenere ogni sequenza aggiornata ingrandisce l’utilità di tutte le sequenze nel database.

RETRIEVING GenBank DATA

Il sistema Entrez

I record di sequenza in GenBank sono accessibili tramite Entrez (Author Webpage), un sistema flessibile di recupero di database che copre oltre 30 database biologici. Questi includono sequenze di DNA e proteine derivate da GenBank e da altre fonti, mappe del genoma, insiemi di sequenze di popolazioni, filogenetiche e ambientali, dati di espressione genica, la tassonomia NCBI, informazioni sul dominio proteico, strutture proteiche dal Molecular Modeling Database, MMDB (10); ogni database è collegato alla letteratura scientifica tramite PubMed e PubMed Central.

Ricerca di similarità di sequenzaBLAST

Le ricerche di similarità di sequenza sono il tipo di analisi più fondamentale e frequente eseguito sui dati GenBank. NCBI offre la famiglia di programmi BLAST (Author Webpage) per rilevare le somiglianze tra una sequenza di query e le sequenze del database (11,12). Le ricerche BLAST possono essere eseguite sul sito web dell’NCBI, o tramite una serie di programmi indipendenti distribuiti via FTP. BLAST è discusso in un articolo separato in questo numero (4).

Ottieni GenBank via FTP

NCBI distribuisce le versioni di GenBank nel tradizionale formato flat-file e nel formato Abstract Syntax Notation (ASN.1) usato per la manutenzione interna. Il rilascio completo bimestrale di GenBank e gli aggiornamenti giornalieri, che incorporano anche dati di sequenza da EMBL e DDBJ, sono disponibili tramite FTP anonimo da NCBI a (pagina web dell’autore) così come da un sito specchio all’Università dell’Indiana (pagina web dell’autore). Il rilascio completo nel formato flat-file è disponibile come file compressi nella directory ‘genbank’ con un set non cumulativo di aggiornamenti contenuti in ‘daily-nc’. Uno script è fornito nella directory ‘tools’ del sito FTP di GenBank per convertire un set di aggiornamenti giornalieri in un aggiornamento cumulativo.

INDIRIZZO DI MESSAGGIO

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tel: +1 301 496 2475; Fax: +1 301 480 9241.

INDIRIZZI ELETTRONICI

NCBI Home Page: [email protected]

Invio di dati di sequenza a GenBank: [email protected]

Revisioni o notifica di rilascio di voci GenBank “confidenziali”: [email protected]

Informazioni generali su NCBI e servizi: [email protected]

CITARE GenBank

Se usi il database GenBank nelle tue ricerche pubblicate, ti chiediamo di citare questo documento.

Il finanziamento per pagare le spese di pubblicazione Open Access per questo articolo è stato fornito dal National Institutes of Health.

Dichiarazione di conflitto di interessi. Nessuno dichiarato.

>

1

Benson
D.A.

,

Karsch-Mizrachi
I.

,

Lipman
D.J.

,

Ostell
J.

,

Wheeler
D.L.

.

GenBank

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

16

20

)

2

Cochrane
G.

,

Aldebert
P.

,

Althorpe
N.

,

Andersson
M.

,

Baker
W.

,

Baldwin
A.

,

Bates
K.

,

Bhattacharyya
S.

,

Browne
P.

,

van denBroek
A.

, et al.

EMBL Nucleotide Sequence Database: sviluppi nel 2005

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

10

15

)

3

Okubo
K.

,

Sugawara
H.

,

Gojobori
T.

,

Tateno
Y.

.

DDBJ in preparazione per la panoramica delle attività di ricerca dietro l’invio di dati

,

Nucleic Acids Res.

,

2006

, vol.

34

(pag.

6

9

)

4

Wheeler
D.L.

,

Barrett
T.

,

Benson
D.A.

,

Bryant
S.H.

,

Canese
K.

,

Chetvernin
V.

,

Church
D.M.

,

DiCuccio
M.

,

Edgar
R.

,

Federhen
S.

, et al.

Risorse del database del National Center for Biotechnology Information

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

173

180

)

5

Boguski
M.S.

,

Lowe
T.M.

,

Tolstoshev
C.M.

.

dbEST-database per ‘expressed sequence tags’

,

Nature Genet.

,

1993

, vol.

4

(pg.

332

333

)

6

Smith
M.W.

,

Holmsen
A.L.

,

Wei
Y.H.

,

Peterson
M.

,

Evans
G.A.

.

Campionamento di sequenza genomica: una strategia per la mappatura fisica ad alta risoluzione basata sulla sequenza di genomi complessi

,

Nature Genet.

,

1994

, vol.

7

(pg.

40

47

)

7

Kans
J.

,

Ouellette
B.

. ,

Bioinformatica: A Practical Guide to the Analysis of Genes and Proteins Chapter Submitting DNA Sequences to the Databases

,

2001
NY
John Wiley and Sons, Inc.

(pg.

65

81

)

8

Kawai
J.

,

Shinagawa
A.

,

Shibata
K.

,

Yoshino
M.

,

Itoh
M.

,

Ishii
Y.

,

Arakawa
T.

,

Hara
A.

,

Fukunishi
Y.

,

Konno
H.

, et al.

Annotazione funzionale di una collezione di cDNA di topo completo

,

Natura

,

2001

, vol.

409

(pg.

685

690

)

9

Koehler
W.

.

Cambiamento e persistenza delle pagine web – uno studio longitudinale di quattro anni

,

J. Am. Soc. Inform. Sci. Technol.

,

2002

, vol.

53

(pg.

162

171

)

10

Marchler-Bauer
A.

,

Anderson
J.B.

,

Cherukuri
P.F.

,

DeWeese-Scott
C.

,

Geer
L.Y.

,

Gwadz
M.

,

He
S.

,

Hurwitz
D.I.

,

Jackson
J.D.

,

Ke
Z.

, et al.

CDD: a Conserved Domain Database for protein classification

,

Nucleic Acids Res.

,

2005

, vol.

33

(pg.

192

196

)

11

Altschul
S.F.

,

Madden
T.L.

,

Schäffer
A.A.

,

Zhang
J.

,

Zhang
Z.

,

Miller
W.

,

Lipman
D.J.

.

Gapped BLAST e PSI-BLAST: una nuova generazione di programmi di ricerca di database di proteine

,

Nucleic Acids Res.

,

1997

, vol.

25

(pg.

3389

3402

)

12

Zhang
Z.

,

Schäffer
A.A.

,

Miller
W.

,

Madden
T.L.

,

Lipman
D.J.

,

Koonin
E.V.

,

Altschul
S.F.

.

Protein sequence similarity searches using patterns as seeds

,

Nucleic Acids Res.

,

1998

, vol.

26

(pg.

3986

3990

)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.