GenBank

Abstract

GenBank (R) est une base de données complète qui contient des séquences nucléotidiques accessibles au public pour plus de 240 000 organismes nommés, obtenues principalement par des soumissions de laboratoires individuels et des soumissions par lots de projets de séquençage à grande échelle. La plupart des soumissions sont effectuées à l’aide des programmes BankIt ou Sequin, basés sur le Web, et les numéros d’accès sont attribués par le personnel de la GenBank dès réception. L’échange quotidien de données avec la bibliothèque de données EMBL en Europe et la banque de données ADN du Japon assure une couverture mondiale. GenBank est accessible par le système de recherche du NCBI, Entrez, qui intègre les données des principales bases de données de séquences d’ADN et de protéines, ainsi que des informations sur la taxonomie, le génome, la cartographie, la structure des protéines et les domaines, et la littérature des revues biomédicales via PubMed. BLAST permet d’effectuer des recherches de similarité de séquences dans GenBank et d’autres bases de données de séquences. Des versions complètes bimestrielles et des mises à jour quotidiennes de la base de données GenBank sont disponibles par FTP. Pour accéder à GenBank et à ses services d’extraction et d’analyse connexes, commencez par la page d’accueil du NCBI (page Web de l’auteur).

INTRODUCTION

GenBank (1) est une base de données publique complète de séquences nucléotidiques et d’annotations bibliographiques et biologiques connexes, construite et distribuée par le National Center for Biotechnology Information (NCBI), une division de la National Library of Medicine (NLM), située sur le campus des US National Institutes of Health (NIH) à Bethesda, MD.

Le NCBI construit GenBank principalement à partir de la soumission de données de séquences par les auteurs et de la soumission en vrac d’étiquettes de séquences exprimées (EST), de séquences d’enquête sur le génome (GSS) et d’autres données à haut débit provenant des centres de séquençage. Le US Office of Patents and Trademarks contribue également aux séquences des brevets délivrés. GenBank, la bibliothèque de données EMBL (2) en Europe et la banque de données ADN du Japon (DDBJ) (3) constituent les bases de données internationales sur les séquences nucléotidiques et sont membres d’une collaboration de longue date dans le cadre de laquelle des informations sont échangées quotidiennement afin de garantir une collection uniforme et complète d’informations sur les séquences. Le NCBI met gratuitement à disposition les données de GenBank sur Internet, par FTP et par le biais d’une large gamme de services de récupération et d’analyse basés sur le Web qui opèrent sur les données de GenBank (4).

ORGANISATION DE LA BASE DE DONNEES

Depuis sa création, GenBank a doublé de taille environ tous les 18 mois. Elle contient actuellement plus de 65 milliards de bases nucléotidiques provenant de plus de 61 millions de séquences individuelles, avec 15 millions de nouvelles séquences ajoutées l’année dernière. Les contributions des projets WGS (whole genome shotgun) complètent les données des divisions traditionnelles pour porter le total à plus de 145 milliards de bases. Les génomes complets (page Web de l’auteur) continuent de représenter une part croissante de la base de données, avec plus de 120 des plus de 370 génomes microbiens complets de GenBank déposés au cours de l’année écoulée. Le nombre de génomes d’eucaryotes pour lesquels la couverture et l’assemblage sont significatifs continue également d’augmenter, avec plus de 104 assemblages désormais disponibles, dont celui du génome humain de référence.

Taxonomie basée sur les séquences

Les séquences de la base de données sont classées et peuvent être interrogées à l’aide d’une taxonomie complète basée sur les séquences (Author Webpage) développée par le NCBI en collaboration avec l’EMBL et la DDBJ et avec l’aide précieuse de conseillers et de conservateurs externes. Plus de 240 000 espèces nommées sont représentées dans GenBank et de nouvelles espèces sont ajoutées au rythme de plus de 2900 par mois. Environ 16% des séquences de GenBank sont d’origine humaine et 13% de toutes les séquences sont des ESTs humaines. Après Homo sapiens, les principales espèces de GenBank en termes de nombre de bases sont Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis et Canis familiaris.

Enregistrements et divisions GenBank

Chaque entrée GenBank comprend une description concise de la séquence, le nom scientifique et la taxonomie de l’organisme source, des références bibliographiques et un tableau des caractéristiques (page Web de l’auteur) énumérant les domaines d’importance biologique, tels que les régions codantes et leurs traductions protéiques, les unités de transcription, les régions répétées et les sites de mutations ou de modifications.

Les fichiers de la distribution GenBank ont traditionnellement été partitionnés en  » divisions  » qui correspondent grossièrement à des groupes taxonomiques tels que les bactéries (BCT), les virus (VRL), les primates (PRI) et les rongeurs (ROD). Ces dernières années, des divisions ont été ajoutées pour soutenir des stratégies de séquençage spécifiques. Ces dernières années, des divisions ont été ajoutées pour soutenir des stratégies de séquençage spécifiques. Il s’agit notamment de divisions pour les séquences EST (expressed sequence tag), GSS (genome survey), HTG (high throughput genomic), HTC (high throughput cDNA), et ENV (environmental sample), soit un total de 18 divisions. Pour des raisons de commodité dans le transfert des fichiers, les divisions les plus importantes, telles que les EST et les PRI, sont partitionnées en plusieurs fichiers pour les publications bimestrielles de GenBank sur le site FTP du NCBI.

Les étiquettes de séquences exprimées

LES EST continuent d’être une source majeure de nouveaux enregistrements de séquences et de séquences de gènes, comprenant plus de 21 milliards de bases nucléotidiques dans la publication 155 de GenBank. Au cours de l’année écoulée, le nombre d’EST a augmenté de plus de 40% pour atteindre un total de 38,3 millions de séquences représentant plus de 1200 organismes différents. Les principaux organismes représentés dans la division EST sont H.sapiens (7,8 millions d’enregistrements), M.musculus (4,7 millions d’enregistrements), O.sativa (1,2 million d’enregistrements), Z.mays (1,1 million d’enregistrements), B.taurus (1,1 million d’enregistrements) et D.rerio (1,1 million d’enregistrements). Dans le cadre de son traitement quotidien des données EST de GenBank, le NCBI identifie par des recherches BLAST toutes les homologies pour les nouvelles séquences EST et incorpore ces informations dans la base de données complémentaire, dbEST (page Web de l’auteur) (5). Les données de dbEST sont traitées plus avant pour produire la base de données UniGene (Author Webpage) de plus de 1,2 million de groupes de séquences orientées vers les gènes représentant plus de 70 organismes, décrite plus en détail dans (4).

Sites étiquetés de séquences (STS), séquences d’enquête sur le génome (GSS) et séquences d’échantillons environnementaux (ENV)

La division STS de GenBank (Author Webpage) contient plus de 883 000 séquences, y compris des STS anonymes basés sur la séquence génomique ainsi que des STS basés sur les gènes dérivés des extrémités 3′ des gènes et des EST. Ces enregistrements STS comprennent généralement des informations de cartographie.

La division GSS de GenBank (Author Webpage) a augmenté au cours de l’année dernière de 22% pour atteindre un total de 14,9 millions d’enregistrements pour plus de 600 organismes et comprend plus de 9,4 milliards de bases nucléotidiques. Les enregistrements GSS sont principalement des lectures uniques de chromosomes artificiels bactériens (‘BAC-ends’) utilisés dans une variété de projets de séquençage de génomes. Les espèces les plus représentées dans la division GSS sont Z.mays (2,0 millions d’enregistrements), M.musculus (1,5 million d’enregistrements), H.sapiens (970 000 enregistrements) et C.familiaris (854 000 enregistrements). Les enregistrements GSS humains ont été utilisés (page Web de l’auteur) en même temps que les enregistrements STS dans la mise en place des BACs pour le projet du génome humain (6).

La division ENV de GenBank accueille les séquences non-WGS obtenues par des méthodes d’échantillonnage environnemental dans lesquelles l’organisme source est inconnu. Les enregistrements de la division ENV contiennent ‘ENV’ dans le champ du mot-clé et utilisent un qualificatif ‘/environmental_sample’ dans la caractéristique de la source. En date de la version 155 de GenBank, la division ENV de GenBank contenait plus de 275 000 séquences, comprenant 236 millions de paires de bases, représentant plus de 4900 études.

Séquences génomiques à haut débit (HTC) et séquences d’ADNc à haut débit (HTC)

La division HTG de GenBank (page Web de l’auteur) contient des enregistrements génomiques à grande échelle non finis qui sont en transition vers un état fini (7). Ces enregistrements sont désignés comme Phase 0-3 en fonction de la qualité des données. Lorsqu’ils atteignent la phase 3, l’état final, les enregistrements HTG sont transférés dans la division organisme appropriée de GenBank. En date de la version 155 de GenBank, la division HTG contenait 15,9 milliards de paires de bases de séquences, soit une augmentation de près de 3 milliards de bases au cours de la dernière année.

La division HTC de GenBank accueille les séquences HTC. Les HTC sont de qualité brouillon mais peuvent contenir des régions 5′ non traduites (5′-UTR) et 3′-UTR, des régions codantes partielles et des introns. Les séquences HTC qui sont terminées et de haute qualité sont déplacées vers la division GenBank de l’organisme approprié. La version 155 de la GenBank contenait plus de 441 000 séquences HTC totalisant plus de 539 millions de bases. Un projet générant des données HTC est décrit dans (8).

Whole genome shotgun sequence (WGS)

Plus de 80 milliards de bases de séquence WGS apparaissent dans GenBank sous forme d’ensembles de contigs WGS, dont beaucoup portent des annotations, provenant d’un seul projet de séquençage. Ces séquences reçoivent des numéros d’accès composés d’un identifiant de projet à quatre lettres, suivi d’un numéro de version à deux chiffres et d’un identifiant de contigu à six chiffres. Ainsi, le numéro d’accès WGS ‘AAAA01072744’ est attribué au contig numéro ‘072744’ de la première version du projet ‘AAAA’. Les projets de séquençage WGS ont fourni plus de 18 millions de contigs à GenBank, soit une augmentation de 64 % au cours de l’année écoulée. Ces séquences primaires ont été utilisées pour construire quelque 760 000 assemblages à grande échelle d’échafaudages et de chromosomes. Les contigs des projets WGS pour H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces, et plus de 450 autres organismes et échantillons environnementaux sont disponibles. Pour une liste complète des projets WGS avec des liens vers les données, voir Author Webpage.

Les projets WGS peuvent être annotés. Cependant, de nombreux projets de génome à faible couverture ne contiennent pas d’annotation. Comme ces projets de séquences sont considérés comme des ébauches et non complets, ces annotations peuvent ne pas être suivies d’une version d’assemblage à l’autre et doivent être considérées comme préliminaires.

Les émetteurs de séquences WGS, et de séquences génomiques en général, sont invités à utiliser un nouvel ensemble de balises de preuve de la forme ‘/expérimental=text’ et ‘/inference=TYPE:text’, où ‘TYPE’ est l’un des nombreux types d’inférence standard et ‘text’ est constitué de texte structuré. Ces nouveaux qualificatifs remplacent respectivement ‘evidence=expérimental’ et ‘evidence=non-expérimental’, qui ne sont plus pris en charge.

Types d’enregistrements spéciaux

Anotation de tiers

Les enregistrements d’annotation de tiers (TPA) prennent en charge le signalement de l’annotation de séquence publiée par un scientifique autre que le soumissionnaire initial de l’enregistrement de séquence primaire dans DDBJ/EMBL/GenBank. Les enregistrements TPA entrent dans l’une des deux catégories suivantes : « expérimental », dans le cas où il existe une preuve expérimentale directe de l’existence de la molécule annotée, et « déductif », dans le cas où la preuve expérimentale est indirecte. Les séquences TPA peuvent être créées en assemblant un certain nombre de séquences primaires. Le format d’un enregistrement TPA (par exemple BK000016) est similaire à celui d’un enregistrement GenBank conventionnel, mais comprend l’étiquette « TPA : » au début de chaque ligne de définition et les mots-clés « Third Party Annotation ; TPA » dans le champ Keywords. Le champ Commentaire des enregistrements TPA énumère les séquences primaires utilisées pour assembler la séquence TPA ; le champ Primaire fournit les plages de bases des séquences primaires qui contribuent à la séquence TPA.

Plus de 5000 enregistrements TPA sont contenus dans la version 155 de GenBank, dont plus de 2170 pour Drosophila melanogaster, 950 pour H.sapiens, 330 pour O.sativa et 290 pour M.musculus. Les séquences TPA ne sont pas diffusées au public tant que leur numéro d’accession ou les données de la séquence et l’annotation n’apparaissent pas dans une revue biologique évaluée par des pairs. Les soumissions de TPA à GenBank peuvent être faites en utilisant soit BankIt, soit Sequin. Pour plus d’informations sur TPA, voir Author Webpage.

Enregistrements CON de GenBank pour des assemblages de plus petits enregistrements

Bien que de nombreux génomes, tels que les génomes bactériens, soient représentés dans GenBank sous forme de séquences uniques, il est souhaitable, du point de vue du transfert et de l’analyse des données, de diviser certaines séquences très longues, telles que des portions de génomes eucaryotes, en segments plus petits. Dans ces cas, on produit des enregistrements de division CON pour la séquence entière qui contiennent des instructions d’assemblage permettant l’affichage et le téléchargement sans faille de la séquence complète. De nombreux enregistrements CON comprennent également des annotations.

CONSTRUIRE LA BASE DE DONNEES

Les séquences et les annotations biologiques de GenBank, et des bases de données collaboratrices EMBL et DDBJ, sont soumises principalement par des auteurs individuels à l’une des trois bases de données, ou par des centres de séquençage sous forme de lots de séquences EST, STS, GSS, HTC, WGS ou HTG. Des informations sont échangées quotidiennement avec la DDBJ et l’EMBL afin que les mises à jour quotidiennes des serveurs du NCBI intègrent les données de séquences les plus récentes de toutes les sources.

Soumission électronique directe

Virtuellement, tous les enregistrements entrent dans GenBank sous forme de soumissions électroniques directes (page Web de l’auteur), la majorité des auteurs utilisant les programmes BankIt ou Sequin. De nombreuses revues exigent des auteurs possédant des données de séquence qu’ils soumettent ces données à une base de données publique comme condition de publication.

Le personnel de GenBank peut généralement attribuer un numéro d’accès à une soumission de séquence dans les deux jours ouvrables suivant sa réception, et le fait à un rythme de près de 1600 par jour. Le numéro d’accès sert à confirmer que la séquence a été soumise et permet aux lecteurs des articles dans lesquels la séquence est citée de retrouver les données. Les soumissions directes font l’objet d’un examen d’assurance qualité qui comprend des vérifications concernant la contamination des vecteurs, la traduction correcte des régions codantes, la taxonomie correcte et les citations bibliographiques correctes. Une ébauche de l’enregistrement GenBank est renvoyée à l’auteur pour révision avant l’entrée dans la base de données. Les auteurs peuvent demander que leurs séquences restent confidentielles jusqu’au moment de la publication. Étant donné que la politique de GenBank exige que les données de séquences déposées soient rendues publiques lorsque la séquence ou le numéro d’accession est publié, les auteurs sont priés d’informer le personnel de GenBank de la date de publication de l’article dans lequel la séquence est citée afin d’assurer une diffusion rapide des données. Bien que seul le scientifique qui soumet la séquence soit autorisé à modifier les données ou les annotations, tous les utilisateurs sont encouragés à signaler les retards dans la libération des données ou les éventuelles erreurs ou omissions à GenBank à l’adresse [email protected].

Le NCBI travaille en étroite collaboration avec les centres de séquençage pour assurer l’incorporation en temps voulu des données en vrac dans GenBank pour la diffusion publique. GenBank offre des procédures spéciales de lots pour les groupes de séquençage à grande échelle afin de faciliter la soumission des données, y compris le programme ‘tbl2asn’, décrit sur Author Webpage.

Soumission à l’aide de BankIt

Environ un tiers des soumissions d’auteurs sont reçues par l’outil de soumission de données sur le Web du NCBI, BankIt (Author Webpage). Avec BankIt, les auteurs saisissent les informations relatives aux séquences directement dans un formulaire et ajoutent des annotations biologiques telles que les régions codantes ou les caractéristiques des ARNm. Des zones de texte libre, des zones de liste et des menus déroulants permettent à l’auteur de décrire plus précisément la séquence sans avoir à apprendre des règles de formatage ou des vocabulaires restreints. BankIt valide les soumissions, en signalant de nombreuses erreurs courantes, et vérifie la contamination vectorielle à l’aide d’une variante de BLAST appelée Vecscreen, avant de créer un projet d’enregistrement au format de fichier plat GenBank pour que le soumissionnaire puisse le réviser. BankIt est l’outil de choix pour les soumissions simples, surtout lorsqu’un seul ou un petit nombre d’enregistrements doit être soumis (7). BankIt peut également être utilisé par les soumissionnaires pour mettre à jour leurs enregistrements GenBank existants.

Soumission à l’aide de Sequin et de tbl2asn

Le NCBI propose également un programme de soumission multiplateforme autonome appelé Sequin (page Web de l’auteur) qui peut être utilisé de manière interactive avec d’autres outils de récupération et d’analyse de séquences du NCBI. Sequin traite des séquences simples telles qu’un ADNc, ainsi que des entrées segmentées, des études phylogénétiques, des études de population, des études de mutation, des échantillons environnementaux et des alignements pour lesquels BankIt et d’autres outils de soumission basés sur le Web ne sont pas bien adaptés. Sequin offre des possibilités d’édition pratiques et d’annotation complexe et contient un certain nombre de fonctions de validation intégrées pour l’assurance qualité. En outre, Sequin est capable de prendre en charge de grandes séquences, comme celle du génome d’Escherichia coli de 5,6 Mb, et de lire un complément complet d’annotations via des tableaux simples. Des versions pour Macintosh, PC et Unix sont disponibles via FTP anonyme à l’adresse (page Web de l’auteur) dans le répertoire ‘sequin’. Une fois la soumission terminée, les soumissionnaires peuvent envoyer le fichier Sequin par courrier électronique à l’adresse ([email protected]).

Les soumissionnaires de grands génomes fortement annotés peuvent trouver pratique d’utiliser ‘tbl2asn’, référencé ci-dessus sous ‘Soumission directe’, pour convertir un tableau d’annotations généré par un pipeline d’annotation en un enregistrement ASN.1 record convenant à la soumission à GenBank.

Soumission de séquences de code-barres

Le Consortium pour le code-barres de la vie (CBOL) est une initiative internationale visant à développer le code-barres de l’ADN comme outil pour caractériser les espèces d’organismes à l’aide d’une courte séquence d’ADN dérivée d’une partie du gène de la sous-unité I du cytochrome oxydase. Le NCBI, en collaboration avec le CBOL (page Web de l’auteur), a créé un outil en ligne pour la soumission en masse de séquences de codes à barres à GenBank (page Web de l’auteur) qui permet aux utilisateurs de télécharger des fichiers contenant un lot de séquences avec les informations de source associées. Il est prévu que cet outil soit utilisé pour d’autres types de soumissions en vrac dans un avenir proche.

Identifiants de séquence et numéros d’accession

Chaque enregistrement GenBank, constitué à la fois d’une séquence et de ses annotations, se voit attribuer un identifiant unique, le numéro d’accession, qui est partagé entre les trois bases de données collaboratrices (GenBank, DDBJ, EMBL) et reste constant pendant la durée de vie de l’enregistrement, même en cas de modification de la séquence ou de l’annotation. Chaque version de la séquence d’ADN dans un enregistrement GenBank se voit également attribuer un identifiant NCBI unique, appelé « gi », qui apparaît sur la ligne VERSION des enregistrements de fichiers plats GenBank après le numéro d’accession. Un troisième identifiant de la forme « Accession.version », également affiché sur la ligne VERSION des enregistrements de fichiers plats, contient les informations présentes dans les numéros gi et d’accession. Une entrée apparaissant dans la base de données pour la première fois possède un identificateur ‘Accession.version’ équivalent au numéro d’ACCESSION de l’enregistrement GenBank suivi de ‘.1’ pour indiquer la première version de la séquence pour l’enregistrement, par ex.

ACCESSION AF000001

VERSION AF000001.1 GI : 987654321

Lorsqu’une modification est apportée à une séquence donnée dans un enregistrement GenBank, un nouveau numéro gi est attribué à la séquence et l’extension de version de l’identifiant ‘Accession.version’ est incrémentée. Le numéro d’accession pour l’ensemble de l’enregistrement reste inchangé et l’ancienne séquence reste disponible sous l’ancien identifiant ‘Accession.version’ et gi.

Un système similaire suit les changements dans les traductions de protéines correspondantes. Ces identifiants apparaissent comme des qualificatifs pour les caractéristiques CDS dans la partie FEATURES d’une entrée GenBank, par exemple /protein_id=’AAA00001.1′. Les traductions de séquences de protéines reçoivent également leur propre numéro gi unique, qui apparaît comme un deuxième qualificateur sur la caractéristique CDS, par exemple /db_xref=’ GI:1233445′.

Assurer un accès stable aux données de séquence

Il devient de plus en plus populaire pour les groupes de recherche de partager de nouvelles séquences biologiques et de mettre à jour les séquences existantes en affichant directement les données sur le Web. Bien qu’il s’agisse d’un moyen pratique et efficace de partager les données entre un ensemble de collaborateurs, si les données originales et les mises à jour ne sont pas également soumises à un dépôt central, trois problèmes importants se posent ; la durée de vie d’accès des données peut être réduite, le contexte biologique complet des données peut ne pas être réalisé, et les données existantes dans les bases de données centralisées fortement utilisées deviendront obsolètes.

La nature éphémère d’une grande partie du contenu sur le Web fait partie de l’expérience commune des utilisateurs du Web. Dans une tentative de quantifier la durée de vie du contenu, 360 pages web choisies au hasard ont été suivies pendant une période de 4 ans, et une demi-vie de seulement 2 ans a été mesurée pour l’ensemble (9). Bien qu’une page Web bien entretenue puisse certainement persister pendant plus de 2 ans, la demi-vie relativement courte signalée pour cet ensemble de pages reflète les nombreux facteurs qui peuvent intervenir pour affecter l’accès aux données affichées sur le Web.

Même pendant la durée de vie accessible des données de séquence affichées sur le Web, cependant, le contexte biologique complet d’une séquence peut ne pas être réalisé si la séquence ne peut pas être comparée commodément à d’autres – peut-être dérivées d’organismes apparentés éloignés qui sont au-delà de la portée de la page Web hôte.

En outre, si les mises à jour des séquences contenues dans les bases de données centralisées sont effectuées sur une page Web, mais pas également sur les enregistrements correspondants dans la base de données centrale, les données les plus récentes n’atteindront pas la communauté de recherche plus large et une grande partie de l’impact des données sera perdue.

La soumission des données de séquence à un dépôt centralisé tel que GenBank résout ces trois problèmes. Les chercheurs sont assurés d’un accès stable aux données par le biais de versions bimensuelles disponibles par FTP, d’interfaces maintenues par le NCBI et de nombreuses interfaces tierces vers un ensemble de données uniforme, et de la redondance archivistique offerte par la collaboration tripartite des bases de données internationales sur les séquences nucléotidiques. La combinaison de nouvelles données avec celles d’autres chercheurs du monde entier au sein d’une base de données centrale fournit un large contexte biologique qui stimule la découverte – le maintien de chaque séquence à jour amplifie l’utilité de toutes les séquences de la base de données.

RETOURNER LES DONNÉES DE GenBank

Le système Entrez

Les enregistrements de séquences dans GenBank sont accessibles via Entrez (Author Webpage), un système flexible de recherche de bases de données qui couvre plus de 30 bases de données biologiques. Celles-ci comprennent des séquences d’ADN et de protéines dérivées de GenBank et d’autres sources, des cartes génomiques, des ensembles de séquences de population, phylogénétiques et environnementales, des données sur l’expression des gènes, la taxonomie du NCBI, des informations sur les domaines protéiques, les structures protéiques de la base de données de modélisation moléculaire, MMDB (10) ; chaque base de données étant liée à la littérature scientifique via PubMed et PubMed Central.

Recherche de similitude de séquenceBLAST

Les recherches de similitude de séquence sont le type d’analyse le plus fondamental et le plus fréquent effectué sur les données de GenBank. Le NCBI propose la famille de programmes BLAST (Author Webpage) pour détecter les similarités entre une séquence d’interrogation et les séquences de la base de données (11,12). Les recherches BLAST peuvent être effectuées sur le site Web du NCBI ou via un ensemble de programmes autonomes distribués par FTP. BLAST fait l’objet d’un article distinct dans ce numéro (4).

Obtenir GenBank par FTP

Le NCBI distribue les versions de GenBank dans le format traditionnel de fichier plat ainsi que dans le format Abstract Syntax Notation (ASN.1) utilisé pour la maintenance interne. La version bimestrielle complète de GenBank et les mises à jour quotidiennes, qui intègrent également les données de séquence de l’EMBL et de la DDBJ, sont disponibles par FTP anonyme auprès du NCBI à l’adresse (page Web de l’auteur) ainsi que sur un site miroir à l’Université de l’Indiana (page Web de l’auteur). La version complète au format de fichier plat est disponible sous forme de fichiers compressés dans le répertoire ‘genbank’ avec un ensemble non cumulatif de mises à jour contenues dans ‘daily-nc’. Un script est fourni dans le répertoire ‘tools’ du site FTP de GenBank pour convertir un ensemble de mises à jour quotidiennes en une mise à jour cumulative.

ADRESSE MAILING

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tél : +1 301 496 2475 ; Fax : +1 301 480 9241.

ADRESSES ÉLECTRONIQUES

Page d’accueil du NCBI : [email protected]

Soumission de données de séquences à GenBank : [email protected]

Révisions ou notification de la publication d’entrées GenBank « confidentielles » : [email protected]

Informations générales sur le NCBI et les services : [email protected]

CITER GenBank

Si vous utilisez la base de données GenBank dans vos recherches publiées, nous vous demandons de citer cet article.

Le financement pour payer les frais de publication en libre accès de cet article a été fourni par les National Institutes of Health.

Déclaration de conflit d’intérêts. Aucun déclaré.

1

Benson
D.A.

,

Karsch-Mizrachi
I.

,

Lipman
D.J.

,

Ostell
J.

,

Wheeler
D.L.

.

GenBank

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

16

20

)

2

Cochrane
G.

,

Aldebert
P.

,

Althorpe
N.

,

Andersson
M.

,

Baker
W.

,

Baldwin
A.

,

Bates
K.

,

Bhattacharyya
S.

,

Browne
P.

,

van denBroek
A.

, et al.

EMBL Nucleotide Sequence Database : developments in 2005

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

10

15

)

3

Okubo
K.

,

Sugawara
H.

,

Gojobori
T.

,

Tateno
Y.

.

DDBJ en préparation pour un aperçu des activités de recherche derrière les soumissions de données

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

6

9

)

4

Wheeler
D.L.

,

Barrett
T.

,

Benson
D.A.

,

Bryant
S.H.

,

Canese
K.

,

Chetvernin
V.

,

Church
D.M.

,

DiCuccio
M.

,

Edgar
R.

,

Federhen
S.

, et al.

Ressources des bases de données du Centre national d’information sur les biotechnologies

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

173

180

)

5

Boguski
M.S.

,

Lowe
T.M.

,

Tolstoshev
C.M.

.

dbEST-base de données pour ‘expressed sequence tags’

,

Nature Genet.

,

1993

, vol.

4

(pg.

332

333

)

6

Smith
M.W.

,

Holmsen
A.L.

,

Wei
Y.H.

,

Peterson
M.

,

Evans
G.A.

.

Échantillonnage de séquences génomiques : une stratégie pour la cartographie physique haute résolution basée sur les séquences de génomes complexes

,

Nature Genet.

,

1994

, vol.

7

(pg.

40

47

)

7

Kans
J.

,

Ouellette
B.

. ,

Bioinformatique : Guide pratique de l’analyse des gènes et des protéines Chapitre Soumettre les séquences d’ADN aux bases de données

,

2001
NY
John Wiley and Sons, Inc.

(pg.

65

81

)

8

Kawai
J.

,

Shinagawa
A.

,

Shibata
K.

,

Yoshino
M.

,

Itoh
M.

,

Ishii
Y.

,

Arakawa
T.

,

Hara
A.

,

Fukunishi
Y.

,

Konno
H.

, et al.

Anotation fonctionnelle d’une collection complète d’ADNc de souris

,

Nature

,

2001

, vol.

409

(pg.

685

690

)

9

Koehler
W.

.

Modification et persistance des pages web-une étude longitudinale de quatre ans

,

J. Am. Soc. Inform. Sci. Technol.

,

2002

, vol.

53

(pg.

162

171

)

10

Marchler-Bauer
A.

,

Anderson
J.B.

,

Cherukuri
P.F.

,

DeWeese-Scott
C.

,

Geer
L.Y.

,

Gwadz
M.

,

He
S.

,

Hurwitz
D.I.

,

Jackson
J.D.

,

Ke
Z.

, et al.

CDD : une base de données de domaines conservés pour la classification des protéines

,

Nucleic Acids Res.

,

2005

, vol.

33

(pg.

192

196

)

11

Altschul
S.F.

,

Madden
T.L.

,

Schäffer
A.A.

,

Zhang
J.

,

Zhang
Z.

,

Miller
W.

,

Lipman
D.J.

.

Gapped BLAST et PSI-BLAST : une nouvelle génération de programmes de recherche de bases de données de protéines

,

Nucleic Acids Res.

,

1997

, vol.

25

(pg.

3389

3402

)

12

Zhang
Z.

,

Schäffer
A.A.

,

Miller
W.

,

Madden
T.L.

,

Lipman
D.J.

,

Koonin
E.V.

,

Altschul
S.F.

.

Recherche de similarité de séquences protéiques en utilisant des modèles comme graines

,

Nucleic Acids Res.

,

1998

, vol.

26

(pg.

3986

3990

)

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.