GenBank | Nucleic Acids Research

Abstract
INTRODUCTION
ORGANIZAÇÃO DA BASE DE DADOS
Taxonomia baseada em sequência
Registros e divisões do GenBank
Express sequence tags
Sequence-tagged sites (STSs), genoma survey sequences (GSSs) and environmental sample sequences (ENV)
Sequências de cDNA (HTC) de alto rendimento e cDNA (HTC) de alto rendimento
Sequência de caçadeira de genoma inteiro (WGS)
Tipos de registros especiais
Anotação de Terceira Parte
GenBank CON records for assemblies of smaller records
BUILDING THE DATABASE
Submissão eletrônica direta
Submission using BankIt
Submissão usando Sequin e tbl2asn
Submissão de sequências de códigos de barras
Identificadores de sequência e números de acesso
Ensuring stable access to sequence data
RETRIEVING GenBank DATA
O sistema Entrez
BLAST sequence-similarity searching
Obtaining GenBank by FTP
MAILING ADDRESS
ENDEREÇOS ELETRÔNICOS
CITING GenBank

Abstract

GenBank (R) é uma base de dados abrangente que contém seqüências de nucleotídeos disponíveis publicamente para mais de 240 000 organismos nomeados, obtidos principalmente através de submissões de laboratórios individuais e submissões de lotes de projetos de seqüenciamento em larga escala. A maioria das submissões é feita usando os programas BankIt ou Sequin, baseados na web, e os números de acesso são atribuídos pela equipe do GenBank após o recebimento. O intercâmbio diário de dados com a Biblioteca de Dados EMBL na Europa e o Banco de Dados de ADN do Japão garante uma cobertura mundial. O GenBank é acessível através do sistema de recuperação do BCNI, Entrez, que integra dados das principais bases de dados de DNA e sequências de proteínas juntamente com taxonomia, genoma, mapeamento, estrutura de proteínas e informações de domínio, e a literatura de revistas biomédicas através do PubMed. BLAST fornece pesquisas de similaridade de seqüências do GenBank e outras bases de dados de seqüências. Lançamentos bimestrais completos e atualizações diárias da base de dados do GenBank estão disponíveis por FTP. Para acessar o GenBank e seus serviços relacionados de recuperação e análise, comece na página do NCBI (Author Webpage).

INTRODUCTION

GenBank (1) é uma base de dados pública abrangente de seqüências de nucleotídeos e anotação de suporte bibliográfico e biológico, construída e distribuída pelo National Center for Biotechnology Information (NCBI), uma divisão da National Library of Medicine (NLM), localizada no campus dos US National Institutes of Health (NIH) em Bethesda, MD.

NCBI constrói o GenBank principalmente a partir da submissão de dados sequenciais dos autores e da submissão em massa da etiqueta de sequência expressa (EST), sequência de pesquisa do genoma (GSS), e outros dados de alto rendimento dos centros de sequenciação. O US Office of Patents and Trademarks também contribui com seqüências de patentes emitidas. GenBank, a Biblioteca de Dados EMBL (2) na Europa, e o Banco de Dados de DNA do Japão (DDBJ) (3) compõem o Banco de Dados Internacional de Seqüências de Núcleotide, e são membros de uma longa colaboração na qual as informações são trocadas diariamente para garantir uma coleção uniforme e abrangente de informações de seqüências. O NCBI disponibiliza os dados do GenBank sem custos através da Internet, via FTP e através de uma vasta gama de serviços de recuperação e análise baseados na web que operam com os dados do GenBank (4).

ORGANIZAÇÃO DA BASE DE DADOS

Desde a sua criação, o GenBank duplicou de tamanho aproximadamente a cada 18 meses. Ele contém atualmente mais de 65 bilhões de bases de nucleotídeos de mais de 61 milhões de seqüências individuais, com 15 milhões de novas seqüências adicionadas no ano passado. Contribuições de projetos de caçadeira de genoma inteiro (WGS) complementam os dados das divisões tradicionais para levar o total a mais de 145 bilhões de bases. Genomas completos (Author Webpage) continuam a representar uma parte crescente da base de dados, com mais de 120 dos mais de 370 genomas microbianos completos no GenBank depositados ao longo do ano passado. O número de genomas eukaryote para os quais a cobertura e a montagem são significativas continua a aumentar também, com mais de 104 montagens agora disponíveis, incluindo a do genoma humano de referência.

Taxonomia baseada em sequência

Sequências de bases de dados são classificadas e podem ser consultadas utilizando uma taxonomia abrangente baseada em sequência (Author Webpage) desenvolvida pelo NCBI em colaboração com o EMBL e o DDBJ e com a valiosa assistência de consultores e curadores externos. Mais de 240 000 espécies nomeadas estão representadas no GenBank e novas espécies estão a ser adicionadas à taxa de mais de 2900 por mês. Cerca de 16% das sequências no GenBank são de origem humana e 13% de todas as sequências são ESTs humanas. Depois do Homo sapiens, as principais espécies no GenBank em termos de número de bases são Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis, e Canis familiaris.

Registros e divisões do GenBank

Cada entrada GenBank inclui uma descrição concisa da sequência, o nome científico e taxonomia do organismo de origem, referências bibliográficas, e uma tabela de características (Página do Autor) listando áreas de significância biológica, tais como regiões codificadoras e suas traduções de proteínas, unidades de transcrição, regiões repetidas, e locais de mutações ou modificações.

Os arquivos na distribuição GenBank têm sido tradicionalmente divididos em ‘divisões’ que correspondem aproximadamente a grupos taxonômicos como bactérias (BCT), vírus (VRL), primatas (PRI), e roedores (ROD). Nos últimos anos, foram acrescentadas divisões para apoiar estratégias específicas de sequenciação. Nos últimos anos, divisões foram adicionadas para apoiar estratégias de seqüenciamento específicas. Estas incluem divisões para EST (express sequence tag), GSS (genome survey), HTG (high throughput genomic), HTC (high throughput cDNA), e sequências de amostras ambientais (ENV), perfazendo um total de 18 divisões. Para conveniência na transferência de arquivos, as divisões maiores, como o EST e PRI, são divididas em múltiplos arquivos para os lançamentos bimestrais do GenBank no site FTP do NCBI.

Express sequence tags

ESTs continuam a ser uma importante fonte de novos registros de sequências e sequências de genes, compreendendo mais de 21 bilhões de bases de nucleotídeos na versão 155 do GenBank. No último ano, o número de ESTs aumentou em mais de 40%, para um total de 38,3 milhões de sequências, representando mais de 1200 organismos diferentes. Os principais organismos representados na divisão EST são H.sapiens (7,8 milhões de registos), M.musculus (4,7 milhões de registos), O.sativa (1,2 milhões de registos), Z.mays (1,1 milhões de registos), B.taurus (1,1 milhões de registos) e D.rerio (1,1 milhões de registos). Como parte do seu processamento diário dos dados do GenBank EST, o NCBI identifica, através do BLAST, todas as homologias para novas sequências EST e incorpora essa informação na base de dados acompanhante, dbEST (Author Webpage) (5). Os dados no dbEST são processados para produzir a base de dados UniGene (Author Webpage) de mais de 1,2 milhões de grupos de sequências orientadas para o género, representando mais de 70 organismos, descritos mais detalhadamente em (4).

Sequence-tagged sites (STSs), genoma survey sequences (GSSs) and environmental sample sequences (ENV)

A divisão STS do GenBank (Author Webpage) contém mais de 883 000 sequências, incluindo STSs anónimas baseadas em sequência genómica, bem como STSs baseadas em gene-based STSs derivadas das extremidades dos genes e ESTs 3′. Esses registros STS geralmente incluem informações de mapeamento.

A divisão GSS do GenBank (Author Webpage) cresceu no último ano em 22% para um total de 14,9 milhões de registros para mais de 600 organismos e compreende mais de 9,4 bilhões de bases nucleotídicas. Os registros GSS são predominantemente de leitura única de cromossomos artificiais bacterianos (“BAC-ends”) usados em uma variedade de projetos de seqüenciamento genômico. As espécies mais representadas na divisão GSS são Z.mays (2,0 milhões de registos), M.musculus (1,5 milhões de registos), H.sapiens (970 000 registos) e C.familiaris (854 000 registos). Registros GSS humanos têm sido usados (Página do Autor) junto com os registros STS na colocação dos BACs para o Projeto Genoma Humano (6).

A divisão ENV do GenBank acomoda seqüências não-WGS obtidas através de métodos de amostragem ambiental em que o organismo fonte é desconhecido. Os registros na divisão ENV contêm ‘ENV’ no campo da palavra-chave e usam um qualificador ‘/amostra_ambiental’ na característica fonte. A partir da versão 155 do GenBank, a divisão ENV do GenBank continha mais de 275 000 sequências, compreendendo 236 milhões de pares de bases, representando mais de 4900 estudos.

Sequências de cDNA (HTC) de alto rendimento e cDNA (HTC) de alto rendimento

A divisão HTG do GenBank (Author Webpage) contém registos genómicos inacabados em grande escala que estão em transição para um estado acabado (7). Estes registros são designados como Fase 0-3, dependendo da qualidade dos dados. Ao alcançar a Fase 3, o estado acabado, os registros HTG são movidos para a divisão de organismos apropriada do GenBank. A partir da versão 155 do GenBank, a divisão HTG continha 15,9 bilhões de pares de bases de seqüência, um aumento de quase 3 bilhões de bases no último ano.

A divisão HTC do GenBank acomoda as seqüências HTC. Os HTCs são de qualidade de rascunho mas podem conter 5′- regiões não traduzidas (5′-UTRs) e 3′-UTRs, regiões com codificação parcial e introns. As sequências HTC acabadas e de alta qualidade são movidas para a divisão GenBank do organismo apropriado. A versão 155 do GenBank continha mais de 441 000 sequências de HTC, totalizando mais de 539 milhões de bases. Um projecto gerador de dados HTC é descrito em (8).

Sequência de caçadeira de genoma inteiro (WGS)

Over 80 biliões de bases de sequência WGS aparecem no GenBank como conjuntos de contigs WGS, muitos dos quais com anotações, provenientes de um único projecto de sequenciação. Essas seqüências são emitidas números de acesso que consistem em um ID de projeto de quatro letras, seguido por um número de versão de dois dígitos e um ID de contigente de seis dígitos. Portanto, o número de acesso do WGS ‘AAAA01072744’ é atribuído ao número de contig ‘072744’ da primeira versão do projeto ‘AAAA’. Os projetos de sequenciamento do WGS contribuíram com mais de 18 milhões de contigentes para o GenBank, um aumento de 64% em relação ao ano passado. Estas sequências primárias foram utilizadas para construir cerca de 760 000 montagens de andaimes e cromossomas em grande escala. Os contigs do projeto WGS para H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces, e mais de 450 outros organismos e amostras ambientais estão disponíveis. Para uma lista completa de projetos WGS com links para os dados, veja Author Webpage.

WGS projetos podem ser anotados. No entanto, muitos projetos de genoma de baixa cobertura não contêm anotações. Como esses projetos de seqüência são considerados rascunhos e não completos, essas anotações podem não ser rastreadas de uma versão assembly para a próxima e devem ser consideradas preliminares.

Submitters of WGS sequences, and genomic sequences in general, are urged to use a new set of evidence tags of the form ‘/experimental=text’ and ‘/inference=TYPE:text’, where ‘TYPE’ is one of a number of a standard inference types and ‘text’ is made up of structured text. Esses novos qualificadores substituem ‘evidence=experimental’ e ‘evidence=non-experimental’, respectivamente, que não são mais suportados.

Tipos de registros especiais

Anotação de Terceira Parte

Anotação de Terceira Parte (TPA) suportam o relato da anotação da seqüência publicada por um cientista que não seja o remetente original do registro da seqüência primária no DDBJ/EMBL/GenBank. Os registros TPA enquadram-se em uma de duas categorias, ‘experimental’, caso em que há uma evidência experimental direta para a existência da molécula anotada, e ‘inferencial’, caso em que a evidência experimental é indireta. As sequências de TPA podem ser criadas através da montagem de um número de sequências primárias. O formato de um registro TPA (por exemplo BK000016) é similar ao de um registro GenBank convencional mas inclui a etiqueta ‘TPA:’ no início de cada Linha de Definição e as palavras-chave ‘Third Party Annotation; TPA’ no campo Palavras-chave. O campo Comentário dos registos TPA lista as sequências primárias usadas para montar a sequência TPA; o campo Primário fornece os intervalos base das sequências primárias que contribuem para a sequência TPA.

Over 5000 registos TPA estão contidos na versão 155 do GenBank, incluindo mais de 2170 para Drosophila melanogaster, 950 para H.sapiens, 330 para O.sativa e 290 para M.musculus. As sequências de TPA não são divulgadas ao público até que seus números de acesso ou dados de sequências e anotações apareçam em uma revista biológica revisada por pares. As submissões de TPA ao GenBank podem ser feitas usando BankIt, ou Sequin. Para mais informações sobre TPA, veja Author Webpage.

GenBank CON records for assemblies of smaller records

Embora muitos genomas, tais como genomas bacterianos, sejam representados no GenBank como seqüências únicas, é desejável do ponto de vista da transferência e análise de dados quebrar algumas seqüências muito longas, tais como porções de genomas eucarióticos, em segmentos menores. Nesses casos, são produzidos registros de divisão CON para toda a seqüência, que contêm instruções de montagem para permitir a exibição e o download sem problemas da seqüência completa. Muitos registros CON também incluem anotações.

BUILDING THE DATABASE

As seqüências e anotações biológicas no GenBank, e as bases de dados colaboradoras EMBL e DDBJ, são submetidas principalmente por autores individuais a uma das três bases de dados, ou por centros de seqüenciamento como lotes de seqüências EST, STS, GSS, HTC, WGS, ou HTG. As informações são trocadas diariamente com o DDBJ e o EMBL para que as atualizações diárias dos servidores do NCBI incorporem os dados sequenciais mais recentes disponíveis de todas as fontes.

Submissão eletrônica direta

Virtualmente todos os registros entram no GenBank como submissões eletrônicas diretas (Author Webpage), com a maioria dos autores usando os programas BankIt ou Sequin. Muitas revistas exigem que os autores com dados sequenciais submetam os dados a uma base de dados pública como condição de publicação.

A equipe do GenBank pode normalmente atribuir um número de acesso a uma submissão sequencial no prazo de dois dias úteis após o recebimento, e fazê-lo a uma taxa de quase 1600 por dia. O número de acesso serve como confirmação de que a sequência foi submetida e permite aos leitores dos artigos em que a sequência é citada recuperarem os dados. As submissões diretas recebem uma revisão de garantia de qualidade que inclui verificação de contaminação vetorial, tradução apropriada das regiões codificadas, taxonomia correta, e citações bibliográficas corretas. Um rascunho do registro do GenBank é passado de volta para o autor para revisão antes de entrar na base de dados. Os autores podem solicitar que suas seqüências sejam mantidas em sigilo até o momento da publicação. Como a política do GenBank exige que os dados da sequência depositada sejam tornados públicos quando a sequência ou o número de acesso é publicado, os autores são instruídos a informar à equipe do GenBank a data de publicação do artigo em que a sequência é citada, a fim de garantir uma liberação oportuna dos dados. Embora apenas o cientista que envia os dados da seqüência ou anotações seja permitido modificar, todos os usuários são encorajados a relatar atrasos na liberação dos dados ou possíveis erros ou omissões ao GenBank em [email protected].

NCBI trabalha em conjunto com os centros de sequenciamento para garantir a incorporação oportuna de dados em massa ao GenBank para liberação pública. O GenBank oferece procedimentos especiais de lotes para grupos de sequenciamento em grande escala para facilitar a submissão de dados, incluindo o programa ‘tbl2asn’, descrito em Author Webpage.

Submission using BankIt

Sobre um terço das submissões de autores são recebidas através da ferramenta de submissão de dados baseada na web do NCBI, BankIt (Author Webpage). Usando o BankIt, os autores inserem informações de seqüência diretamente em um formulário e adicionam anotações biológicas, como regiões codificadoras, ou recursos mRNA. Caixas de texto de formato livre, caixas de listagem e menus de puxar para baixo permitem que o submetedor descreva melhor a seqüência sem ter que aprender regras de formatação ou vocabulários restritos. BankIt valida submissões, marcando muitos erros comuns, e verifica se há contaminação vetorial usando uma variante do BLAST chamada Vecscreen, antes de criar um rascunho de registro no formato de arquivo plano do GenBank para o submetedor revisar. BankIt é a ferramenta de escolha para submissões simples, especialmente quando apenas um ou um pequeno número de registros deve ser submetido (7). BankIt também pode ser usado pelos submetedores para atualizar seus registros GenBank existentes.

Submissão usando Sequin e tbl2asn

NCBI também oferece um programa autônomo de submissão multiplataforma chamado Sequin (Author Webpage) que pode ser usado interativamente com outras ferramentas de recuperação e análise de sequências NCBI. O Sequin trata de sequências simples como um cDNA, assim como entradas segmentadas, estudos filogenéticos, estudos populacionais, estudos de mutação, amostras ambientais e alinhamentos para os quais o BankIt e outras ferramentas de submissão baseadas na web não são bem adequadas. O Sequin possui conveniente capacidade de edição e anotação complexa e contém uma série de funções de validação incorporadas para garantia de qualidade. Além disso, o Sequin é capaz de acomodar grandes sequências, como a do genoma Escherichia coli de 5,6 Mb, e ler em um complemento completo de anotações através de tabelas simples. Versões para computadores Macintosh, PC e Unix estão disponíveis via FTP anônimo em (Author Webpage) no diretório ‘sequin’. Uma vez concluída uma submissão, os submetedores podem enviar o arquivo Sequin por e-mail para o endereço ([email protected]).

Submitters of large, heavily annotated genomes may find it convenient to use ‘tbl2asn’, referenced above under ‘Direct submission’, to convert a table of annotations generated via an annotation pipeline into an ASN.1 adequado para submissão ao GenBank.

Submissão de sequências de códigos de barras

O Consortium for the Barcode of Life (CBOL) é uma iniciativa internacional para desenvolver código de barras de DNA como uma ferramenta para caracterizar espécies de organismos usando uma sequência curta de DNA derivada de uma porção do gene da subunidade citocromo oxidase I. A NCBI, em colaboração com o CBOL (Author Webpage), criou uma ferramenta online para a submissão em massa de sequências de códigos de barras ao GenBank (Author Webpage) que permite aos utilizadores carregar ficheiros contendo um lote de sequências com informação de origem associada. Prevê-se que esta ferramenta será utilizada para outros tipos de submissões em massa num futuro próximo.

Identificadores de sequência e números de acesso

A cada registo GenBank, composto por uma sequência e as suas anotações, é atribuído um identificador único, o número de acesso, que é partilhado pelos três bancos de dados colaboradores (GenBank, DDBJ, EMBL) e permanece constante ao longo da vida do registo, mesmo quando há uma alteração na sequência ou anotação. A cada versão da sequência de ADN de um registo GenBank é também atribuído um identificador único NCBI, chamado “gi”, que aparece na linha VERSION dos registos de ficheiro plano do GenBank após o número de acesso. Um terceiro identificador do formulário “Accession.version”, também exibido na linha VERSION dos registos de ficheiro plano, contém a informação presente tanto nos números gi como nos números de acesso. Uma entrada que aparece na base de dados pela primeira vez tem um identificador ‘Accession.version’ equivalente ao número de acesso do registo GenBank seguido de ‘.1’ para indicar a primeira versão da sequência para o registo, por exemplo

ACCESSION AF000001

VERSION AF000001.1 GI: 987654321

Quando uma alteração é feita a uma sequência dada num registo GenBank, um novo número gi é emitido para a sequência e a extensão da versão do identificador ‘Accession.version’ é incrementada. O número de acesso para o registro como um todo permanece inalterado e a seqüência antiga permanece disponível sob o antigo identificador ‘Accession.version’ e gi.

Um sistema similar rastreia as mudanças nas traduções de proteínas correspondentes. Estes identificadores aparecem como qualificadores de características CDS na parte FEATURES de uma entrada do GenBank, por exemplo /protein_id=’AAA00001.1′. As traduções de seqüências proteicas também recebem seu próprio número gi único, que aparece como um segundo qualificador no recurso CDS, por exemplo /db_xref=’ GI:1233445′.

Ensuring stable access to sequence data

Está se tornando cada vez mais popular para grupos de pesquisa compartilharem novas seqüências biológicas e atualizarem seqüências existentes, postando diretamente os dados na Web. Embora esta seja uma forma conveniente e eficaz de compartilhar os dados entre um conjunto de colaboradores, se os dados originais e atualizações não forem também submetidos a um repositório central, três problemas significativos surgem; a vida útil de acesso aos dados pode ser reduzida, o contexto biológico completo dos dados pode não ser realizado, e os dados existentes em bancos de dados centralizados muito utilizados se tornarão desatualizados.

A natureza efêmera de grande parte do conteúdo da web é parte da experiência comum dos usuários da web. Em uma tentativa de quantificar a vida útil do conteúdo, 360 páginas web selecionadas aleatoriamente foram rastreadas por um período de 4 anos, e uma meia-vida de apenas 2 anos foi medida para o conjunto (9). Embora uma página web bem conservada possa certamente persistir por mais de 2 anos, a meia-vida relativamente curta relatada para esse conjunto de páginas reflete os muitos fatores que podem intervir para afetar o acesso aos dados lançados na web.

Aven durante a vida útil acessível dos dados da seqüência lançada na web, entretanto, o contexto biológico completo de uma seqüência pode não ser realizado se a seqüência não puder ser convenientemente comparada com outras – talvez derivada de organismos distantemente relacionados que estão além do escopo da página web hospedeira.

Submissão de dados de seqüências para um repositório centralizado, como o GenBank, resolve esses três problemas. Os pesquisadores têm acesso estável aos dados através de versões bimestrais disponíveis por FTP, manutenção do NCBI, bem como numerosas interfaces de terceiros para um conjunto de dados uniforme, e a redundância de arquivos oferecida pela colaboração das bases de dados tripartites internacionais de seqüências nucleotídeas. A combinação de novos dados com os de outros pesquisadores do mundo inteiro dentro de um banco de dados central fornece um amplo contexto biológico que estimula a descoberta – a manutenção de cada corrente de seqüência amplia a utilidade de todas as seqüências no banco de dados.

RETRIEVING GenBank DATA

O sistema Entrez

Os registros de seqüência no GenBank são acessíveis via Entrez (Author Webpage), um sistema flexível de recuperação de banco de dados que cobre mais de 30 bancos de dados biológicos. Estes incluem sequências de DNA e proteínas derivadas do GenBank e outras fontes, mapas genómicos, população, conjuntos de sequências filogenéticas e ambientais, dados de expressão genética, taxonomia NCBI, informação do domínio proteico, estruturas proteicas da Base de Dados de Modelação Molecular, MMDB (10); cada base de dados ligada à literatura científica via PubMed e PubMed Central.

BLAST sequence-similarity searching

Sequence-similarity searches are the most fundamental and frequent type of analysis performed on the GenBank data. A NCBI oferece a família de programas BLAST (Author Webpage) para detectar semelhanças entre uma sequência de consulta e sequências de bases de dados (11,12). As pesquisas BLAST podem ser realizadas no site do NCBI, ou através de um conjunto de programas autónomos distribuídos por FTP. BLAST é discutido em um artigo separado nesta edição (4).

Obtaining GenBank by FTP

NCBI distribui versões do GenBank no formato tradicional de arquivo plano, bem como no formato de Notação de Sintaxe Abstrata (ASN.1) utilizado para manutenção interna. A versão bimestral completa do GenBank e as atualizações diárias, que também incorporam dados sequenciais do EMBL e DDBJ, estão disponíveis por FTP anônimo do NCBI em (Author Webpage), bem como de um site espelho na Universidade de Indiana (Author Webpage). O lançamento completo no formato de arquivo plano está disponível como arquivos compactados no diretório, ‘genbank’ com um conjunto não-cumulativo de atualizações contidas em ‘daily-nc’. Um script é fornecido no diretório ‘tools’ do site FTP do GenBank para converter um conjunto de atualizações diárias em uma atualização cumulativa.

MAILING ADDRESS

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tel: +1 301 496 2475; Fax: +1 301 480 9241.

ENDEREÇOS ELETRÔNICOS

NCBI Home Page: [email protected]

Submissão de dados de sequência ao GenBank: [email protected]

Revisões para ou notificação de liberação de entradas ‘confidenciais’ do GenBank: [email protected]

Informação geral sobre NCBI e serviços: [email protected]

CITING GenBank

Se utilizar a base de dados do GenBank na sua pesquisa publicada, pedimos que este artigo seja citado.

O financiamento para pagar as taxas de publicação de Acesso Livre para este artigo foi fornecido pelos Institutos Nacionais de Saúde.

Declaração de conflito de interesses. Nenhum declarado.

>Benson

D.A.

Karsch-Mizrachi

Lipman

D.J.

Ostell

Wheeler

D.L.

GenBank

Ácidos nucléicos Res.

2006

, vol.

(pg.

–

)

>Cochrane

Aldebert

Althorpe

Andersson

Baker

Baldwin

Bates

Bhattacharyya

Browne

van denBroek

, et al.

EMBL Base de dados de sequências de nucleotídeos: desenvolvimentos em 2005

Ácidos Nucleicos Res.

2006

, vol.

(pg.

–

)

Okubo

Sugawara

Gojobori

Tateno

DDBJ em preparação para uma visão geral das atividades de pesquisa por trás das submissões de dados

Ácidos Nucleicos Res.

2006

, vol.

(pg.

–

)

>Wheeler

D.L.

Barrett

Benson

D.A.

Bryant

S.H.

Canês

Chetvernin

Igreja

D.M.

DiCuccio

Edgar

Federhen

, et al.

Recursos de banco de dados do Centro Nacional de Informação Biotecnológica

Reserva de Ácidos Nucleicos.

2006

, vol.

(pg.

173

–

180

)

Boguski

M.S.

Lowe

T.M.

Tolstoshev

C.M.

dbEST-database para ‘tags de sequência expressa’

Nature Genet.

1993

, vol.

(pg.

332

–

333

)

>Smith

M.W.

Holmsen

A.L.

Wei

Y.H.

Peterson

Evans

G.A.

Amostras de sequência genómica: uma estratégia para o mapeamento físico de genomas complexos baseado em sequência de alta resolução

Geneto natural.

1994

, vol.

(pg.

–

)

Kans

Ouellette

. ,

Bioinformática: Um Guia Prático para a Análise de Genes e Proteínas Capítulo Submeter Sequências de DNA às Bases de Dados

2001

John Wiley and Sons, Inc.

(pg.

–

)

>Kawai

Shinagawa

Shibata

Yoshino

Itoh

Ishii

Arakawa

Hara

Fukunishi

Konno

, et al.

Anotação funcional de uma coleção de cDNA do mouse completa

Natureza

2001

, vol.

409

(pg.

685

–

690

)

Koehler

Mudança e persistência de página web-um estudo longitudinal de quatro anos

J. Am. Soc. Inform. Sci. Technol.

2002

, vol.

(pg.

162

–

171

)

>10

>Marchler-Bauer

Anderson

J.B.

Cherukuri

P.F.

DeWeese-Scott

Geer

L.Y.

Gwadz

Hurwitz

D.I.

Jackson

J.D.

, et al.

CDD: a Conserved Domain Database for protein classification

Nucleic Acids Res.

2005

, vol.

(pg.

192

–

196

)

Altschul

S.F.

Madden

T.L.

Schäffer

A.A.

Zhang

Miller

Lipman

D.J.

BLAST e PSI-BLAST: uma nova geração de programas de pesquisa de base de dados de proteínas

Ácidos Nucleicos Res.

1997

, vol.

(pg.

3389

–

3402

)

>Zhang

Schäffer

A.A.

Miller

Madden

T.L.

Lipman

D.J.

Koonin

E.V.

Altschul

S.F.

Protein sequência de pesquisas de similaridade usando padrões como sementes

Ácidos nucléicos Res.

1998

, vol.

(pg.

3986

–

3990

)

Abstract

INTRODUCTION

ORGANIZAÇÃO DA BASE DE DADOS

Taxonomia baseada em sequência

Registros e divisões do GenBank

Express sequence tags

Sequence-tagged sites (STSs), genoma survey sequences (GSSs) and environmental sample sequences (ENV)

Sequências de cDNA (HTC) de alto rendimento e cDNA (HTC) de alto rendimento

Sequência de caçadeira de genoma inteiro (WGS)

Tipos de registros especiais

Anotação de Terceira Parte

GenBank CON records for assemblies of smaller records

BUILDING THE DATABASE

Submissão eletrônica direta

Submission using BankIt

Submissão usando Sequin e tbl2asn

Submissão de sequências de códigos de barras

Identificadores de sequência e números de acesso

Ensuring stable access to sequence data

RETRIEVING GenBank DATA

O sistema Entrez

BLAST sequence-similarity searching

Obtaining GenBank by FTP

MAILING ADDRESS

ENDEREÇOS ELETRÔNICOS

CITING GenBank

Deixe uma resposta Cancelar resposta