GenBank

Abstract

GenBank (R) es una completa base de datos que contiene secuencias de nucleótidos disponibles públicamente para más de 240 000 organismos con nombre, obtenidas principalmente a través de envíos de laboratorios individuales y envíos por lotes de proyectos de secuenciación a gran escala. La mayoría de los envíos se realizan mediante los programas BankIt o Sequin, basados en la web, y el personal de GenBank asigna los números de acceso en cuanto los recibe. El intercambio diario de datos con la Biblioteca de Datos EMBL de Europa y el Banco de Datos de ADN de Japón garantiza la cobertura mundial. Se puede acceder al GenBank a través del sistema de recuperación del NCBI, Entrez, que integra datos de las principales bases de datos de secuencias de ADN y proteínas junto con información sobre taxonomía, genoma, cartografía, estructura y dominio de proteínas, y la literatura de revistas biomédicas a través de PubMed. BLAST proporciona búsquedas de similitud de secuencias en GenBank y otras bases de datos de secuencias. Las publicaciones bimensuales completas y las actualizaciones diarias de la base de datos GenBank están disponibles por FTP. Para acceder a GenBank y a sus servicios de recuperación y análisis relacionados, comience en la página web del NCBI (página web del autor).

INTRODUCCIÓN

GenBank (1) es una completa base de datos pública de secuencias de nucleótidos y de anotaciones bibliográficas y biológicas de apoyo, construida y distribuida por el National Center for Biotechnology Information (NCBI), una división de la National Library of Medicine (NLM), situada en el campus de los US National Institutes of Health (NIH) en Bethesda, MD.

El NCBI construye el GenBank principalmente a partir del envío de datos de secuencias por parte de los autores y del envío masivo de etiquetas de secuencias expresadas (EST), secuencias de estudio del genoma (GSS) y otros datos de alto rendimiento de los centros de secuenciación. La Oficina de Patentes y Marcas de los Estados Unidos también contribuye con secuencias de patentes emitidas. GenBank, la Biblioteca de Datos del EMBL (2) en Europa, y el Banco de Datos de ADN de Japón (DDBJ) (3) conforman las Bases de Datos Internacionales de Secuencias de Nucleótidos, y son miembros de una larga colaboración en la que se intercambia información diariamente para asegurar una colección uniforme y completa de información de secuencias. El NCBI pone a disposición los datos del GenBank sin coste alguno a través de Internet, mediante FTP y a través de una amplia gama de servicios de recuperación y análisis basados en la web que operan con los datos del GenBank (4).

ORGANIZACIÓN DE LA BASE DE DATOS

Desde su creación, el GenBank ha duplicado su tamaño aproximadamente cada 18 meses. Actualmente contiene más de 65.000 millones de bases de nucleótidos procedentes de más de 61 millones de secuencias individuales, con 15 millones de nuevas secuencias añadidas en el último año. Las contribuciones de los proyectos de escopeta de genoma completo (WGS) complementan los datos de las divisiones tradicionales para que el total supere los 145.000 millones de bases. Los genomas completos (página web del autor) siguen representando una parte creciente de la base de datos, con más de 120 de los más de 370 genomas microbianos completos del GenBank depositados el año pasado. El número de genomas de eucariotas para los que la cobertura y el ensamblaje son significativos también sigue aumentando, con más de 104 ensamblajes ya disponibles, incluido el del genoma humano de referencia.

Taxonomía basada en la secuencia

Las secuencias de la base de datos se clasifican y pueden consultarse utilizando una taxonomía completa basada en la secuencia (página web del autor) desarrollada por el NCBI en colaboración con el EMBL y el DDBJ y con la valiosa ayuda de asesores y conservadores externos. En GenBank están representadas más de 240.000 especies con nombre y se añaden nuevas especies a un ritmo de más de 2.900 al mes. Alrededor del 16% de las secuencias del GenBank son de origen humano y el 13% de todas las secuencias son EST humanas. Después del Homo sapiens, las principales especies del GenBank en cuanto a número de bases son Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis y Canis familiaris.

Registros y divisiones del GenBank

Cada entrada del GenBank incluye una descripción concisa de la secuencia, el nombre científico y la taxonomía del organismo de origen, referencias bibliográficas y una tabla de características (página web del autor) en la que se enumeran las áreas de importancia biológica, como las regiones codificantes y sus traducciones proteicas, las unidades de transcripción, las regiones de repetición y los lugares de mutaciones o modificaciones.

Los archivos de la distribución de GenBank se han dividido tradicionalmente en «divisiones» que corresponden aproximadamente a grupos taxonómicos como bacterias (BCT), virus (VRL), primates (PRI) y roedores (ROD). En los últimos años, se han añadido divisiones para apoyar estrategias de secuenciación específicas. En los últimos años, se han añadido divisiones para apoyar estrategias de secuenciación específicas. Éstas incluyen divisiones para secuencias de etiquetas de secuencias expresadas (EST), estudio del genoma (GSS), genómica de alto rendimiento (HTG), ADNc de alto rendimiento (HTC) y muestras ambientales (ENV), haciendo un total de 18 divisiones. Para facilitar la transferencia de archivos, las divisiones más grandes, como las EST y las PRI, se dividen en múltiples archivos para las publicaciones bimestrales de GenBank en el sitio FTP del NCBI.

Las etiquetas de secuencias expresadas

Las EST siguen siendo una fuente importante de nuevos registros de secuencias y de secuencias de genes, que comprenden más de 21.000 millones de bases de nucleótidos en la publicación 155 de GenBank. En el último año, el número de ESTs ha aumentado en más de un 40% hasta un total de 38,3 millones de secuencias que representan a más de 1200 organismos diferentes. Los principales organismos representados en la división de EST son H.sapiens (7,8 millones de registros), M.musculus (4,7 millones de registros), O.sativa (1,2 millones de registros), Z.mays (1,1 millones de registros), B.taurus (1,1 millones de registros) y D.rerio (1,1 millones de registros). Como parte de su procesamiento diario de los datos EST del GenBank, el NCBI identifica mediante búsquedas BLAST todas las homologías de las nuevas secuencias EST e incorpora esa información a la base de datos complementaria, dbEST (página web del autor) (5). Los datos de dbEST se procesan aún más para producir la base de datos UniGene (página web del autor) de más de 1,2 millones de grupos de secuencias orientadas a genes que representan a más de 70 organismos, descritos con más detalle en (4).

Sitios de etiquetado de secuencias (STS), secuencias de estudio del genoma (GSS) y secuencias de muestras ambientales (ENV)

La división STS de GenBank (página web del autor) contiene más de 883 000 secuencias, incluidas las STS anónimas basadas en la secuencia genómica, así como las STS basadas en el gen derivadas de los extremos 3′ de los genes y las EST. Estos registros STS suelen incluir información cartográfica.

La división GSS de GenBank (página web del autor) ha crecido en el último año un 22% hasta alcanzar un total de 14,9 millones de registros para más de 600 organismos y comprende más de 9.400 millones de bases de nucleótidos. Los registros del GSS son predominantemente lecturas individuales de cromosomas artificiales bacterianos («BAC-ends») utilizados en diversos proyectos de secuenciación del genoma. Las especies más representadas en la división GSS son Z.mays (2,0 millones de registros), M.musculus (1,5 millones de registros), H.sapiens (970 000 registros) y C.familiaris (854 000 registros). Los registros de GSS humanos se han utilizado (página web del autor) junto con los registros de STS en el mosaico de BAC para el Proyecto Genoma Humano (6).

La división ENV del GenBank alberga secuencias no WGS obtenidas mediante métodos de muestreo ambiental en los que el organismo de origen es desconocido. Los registros de la división ENV contienen «ENV» en el campo de la palabra clave y utilizan un calificador «/environmental_sample» en la característica de origen. A partir de la versión 155 de GenBank, la división ENV de GenBank contenía más de 275 000 secuencias, que comprendían 236 millones de pares de bases, que representaban más de 4900 estudios.

Secuencias genómicas de alto rendimiento (HTC) y de ADNc de alto rendimiento (HTC)

La división HTG de GenBank (página web del autor) contiene registros genómicos a gran escala sin terminar que están en transición hacia un estado terminado (7). Estos registros se designan como Fase 0-3 dependiendo de la calidad de los datos. Al llegar a la fase 3, el estado finalizado, los registros HTG se trasladan a la división de organismos apropiada del GenBank. En la versión 155 de GenBank, la división HTG contenía 15.900 millones de pares de bases de secuencias, lo que supone un aumento de casi 3.000 millones de bases en el último año.

La división HTC de GenBank alberga secuencias HTC. Las HTC son de calidad de borrador pero pueden contener regiones 5′ no traducidas (5′-UTR) y 3′-UTR, regiones codificantes parciales e intrones. Las secuencias HTC terminadas y de alta calidad se trasladan a la división GenBank del organismo correspondiente. La versión 155 del GenBank contiene más de 441.000 secuencias de HTC que suman más de 539 millones de bases. Un proyecto que genera datos de HTC se describe en (8).

Secuencia de escopeta de genoma completo (WGS)

Más de 80.000 millones de bases de secuencia WGS aparecen en GenBank como conjuntos de contigs WGS, muchos de ellos con anotaciones, originados por un único proyecto de secuenciación. Estas secuencias reciben números de acceso que consisten en un ID de proyecto de cuatro letras, seguido de un número de versión de dos dígitos y un ID de contig de seis dígitos. Así, el número de acceso WGS «AAAA01072744» se asigna al contig número «072744» de la primera versión del proyecto «AAAA». Los proyectos de secuenciación WGS han aportado más de 18 millones de contigs a GenBank, lo que supone un aumento del 64% en el último año. Estas secuencias primarias se han utilizado para construir unos 760 000 ensamblajes a gran escala de andamios y cromosomas. Hay disponibles contigs de proyectos WGS para H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces y más de 450 otros organismos y muestras ambientales. Para una lista completa de proyectos WGS con enlaces a los datos, véase la página web del autor.

Los proyectos WGS pueden ser anotados. Sin embargo, muchos proyectos genómicos de baja cobertura no contienen anotaciones. Debido a que estos proyectos de secuencias se consideran borradores y no están completos, estas anotaciones no pueden ser rastreadas de una versión de ensamblaje a la siguiente y deben ser consideradas como preliminares.

Se insta a los remitentes de secuencias WGS, y de secuencias genómicas en general, a que utilicen un nuevo conjunto de etiquetas de evidencia de la forma ‘/experimental=text’ y ‘/inference=TYPE:text’, donde ‘TYPE’ es uno de varios tipos de inferencia estándar y ‘text’ está formado por texto estructurado. Estos nuevos calificadores sustituyen a ‘evidence=experimental’ y ‘evidence=non-experimental’, respectivamente, que ya no se admiten.

Tipos de registros especiales

Anotaciones de terceros

Los registros de anotaciones de terceros (TPA) admiten la notificación de anotaciones de secuencias publicadas por un científico distinto del remitente original del registro de secuencia primario en DDBJ/EMBL/GenBank. Los registros TPA se clasifican en una de las dos categorías, «experimental», en cuyo caso hay una evidencia experimental directa de la existencia de la molécula anotada, e «inferencial», en cuyo caso la evidencia experimental es indirecta. Las secuencias TPA pueden crearse ensamblando una serie de secuencias primarias. El formato de un registro TPA (por ejemplo, BK000016) es similar al de un registro convencional de GenBank, pero incluye la etiqueta «TPA:» al principio de cada línea de definición y las palabras clave «Third Party Annotation; TPA» en el campo Keywords. El campo Comment de los registros TPA enumera las secuencias primarias utilizadas para ensamblar la secuencia TPA; el campo Primary proporciona los rangos de bases de las secuencias primarias que contribuyen a la secuencia TPA.

Más de 5000 registros TPA están contenidos en la versión 155 de GenBank, incluyendo más de 2170 para Drosophila melanogaster, 950 para H.sapiens, 330 para O.sativa y 290 para M.musculus. Las secuencias TPA no se hacen públicas hasta que sus números de acceso o los datos de la secuencia y la anotación aparecen en una revista biológica revisada por pares. Los envíos de TPA a GenBank pueden realizarse mediante BankIt o Sequin. Para obtener más información sobre TPA, consulte la página web del autor.

Registros CON de GenBank para ensamblajes de registros más pequeños

Aunque muchos genomas, como los bacterianos, están representados en GenBank como secuencias únicas, es deseable, desde el punto de vista de la transferencia y el análisis de datos, dividir algunas secuencias muy largas, como porciones de genomas eucariotas, en segmentos más pequeños. En estos casos, se producen registros de la división CON para la secuencia completa que contienen instrucciones de ensamblaje para permitir la visualización y descarga sin problemas de la secuencia completa. Muchos registros CON también incluyen anotaciones.

CONSTRUYENDO LA BASE DE DATOS

Las secuencias y anotaciones biológicas en GenBank, y las bases de datos colaboradoras EMBL y DDBJ, son enviadas principalmente por autores individuales a una de las tres bases de datos, o por centros de secuenciación como lotes de secuencias EST, STS, GSS, HTC, WGS o HTG. La información se intercambia diariamente con DDBJ y EMBL para que las actualizaciones diarias de los servidores del NCBI incorporen los datos de secuencias más recientes disponibles de todas las fuentes.

Envío electrónico directo

Casi todos los registros entran en GenBank como envíos electrónicos directos (página web del autor), y la mayoría de los autores utilizan los programas BankIt o Sequin. Muchas revistas exigen a los autores con datos de secuencias que los envíen a una base de datos pública como condición para su publicación.

El personal de GenBank suele asignar un número de acceso a un envío de secuencias en los dos días laborables siguientes a su recepción, y lo hace a un ritmo de casi 1600 al día. El número de acceso sirve para confirmar que la secuencia se ha enviado y permite a los lectores de los artículos en los que se cita la secuencia recuperar los datos. Los envíos directos reciben una revisión de garantía de calidad que incluye la comprobación de la contaminación del vector, la traducción adecuada de las regiones codificantes, la taxonomía correcta y las citas bibliográficas correctas. Un borrador del registro de GenBank se devuelve al autor para que lo revise antes de que entre en la base de datos. Los autores pueden solicitar que sus secuencias sean confidenciales hasta el momento de su publicación. Dado que la política de GenBank exige que los datos de las secuencias depositadas se hagan públicos cuando se publique la secuencia o el número de acceso, se ruega a los autores que informen al personal de GenBank de la fecha de publicación del artículo en el que se cita la secuencia, con el fin de garantizar la publicación oportuna de los datos. Aunque sólo el científico remitente está autorizado a modificar los datos de la secuencia o las anotaciones, se anima a todos los usuarios a que informen de los retrasos en la publicación de los datos o de posibles errores u omisiones a GenBank en [email protected].

El NCBI trabaja estrechamente con los centros de secuenciación para garantizar la incorporación oportuna de los datos masivos en GenBank para su publicación. GenBank ofrece procedimientos especiales por lotes para grupos de secuenciación a gran escala con el fin de facilitar el envío de datos, incluyendo el programa ‘tbl2asn’, descrito en Author Webpage.

Envío mediante BankIt

Alrededor de un tercio de los envíos de los autores se reciben a través de la herramienta de envío de datos basada en la web del NCBI, BankIt (Author Webpage). Con BankIt, los autores introducen la información de la secuencia directamente en un formulario y añaden anotaciones biológicas como regiones codificantes o características del ARNm. Los cuadros de texto libres, los cuadros de lista y los menús desplegables permiten al remitente describir la secuencia sin tener que aprender reglas de formato o vocabularios restringidos. BankIt valida los envíos, marcando muchos errores comunes, y comprueba la contaminación vectorial mediante una variante de BLAST llamada Vecscreen, antes de crear un borrador de registro en formato de archivo plano de GenBank para que el remitente lo revise. BankIt es la herramienta preferida para los envíos sencillos, especialmente cuando sólo hay que enviar uno o un pequeño número de registros (7). BankIt también puede ser utilizado por los remitentes para actualizar sus registros existentes en el GenBank.

Presentación mediante Sequin y tbl2asn

El NCBI también ofrece un programa independiente de presentación multiplataforma llamado Sequin (página web del autor) que puede utilizarse de forma interactiva con otras herramientas de recuperación y análisis de secuencias del NCBI. Sequin maneja secuencias simples como un ADNc, así como entradas segmentadas, estudios filogenéticos, estudios de poblaciones, estudios de mutaciones, muestras ambientales y alineamientos para los que BankIt y otras herramientas de envío basadas en la web no son muy adecuadas. Sequin cuenta con cómodas capacidades de edición y anotación compleja y contiene una serie de funciones de validación incorporadas para garantizar la calidad. Además, Sequin es capaz de acomodar secuencias de gran tamaño, como la del genoma de Escherichia coli de 5,6 Mb, y de leer un complemento completo de anotaciones mediante tablas sencillas. Las versiones para ordenadores Macintosh, PC y Unix están disponibles a través de FTP anónimo en (página web del autor) en el directorio ‘sequin’. Una vez completado el envío, los remitentes pueden enviar el archivo Sequin por correo electrónico a la dirección ([email protected]).

Los remitentes de genomas grandes y muy anotados pueden encontrar conveniente el uso de ‘tbl2asn’, al que se ha hecho referencia en «Envío directo», para convertir una tabla de anotaciones generada a través de un pipeline de anotación en un registro ASN.1 adecuado para su envío a GenBank.

Envío de secuencias de código de barras

El Consorcio para el Código de Barras de la Vida (CBOL) es una iniciativa internacional para desarrollar el código de barras de ADN como una herramienta para caracterizar especies de organismos utilizando una secuencia corta de ADN derivada de una porción del gen de la subunidad I de la citocromo oxidasa. El NCBI, en colaboración con el CBOL (página web del autor), ha creado una herramienta en línea para el envío masivo de secuencias de códigos de barras a GenBank (página web del autor) que permite a los usuarios cargar archivos que contengan un lote de secuencias con la información de origen asociada. Se prevé que esta herramienta se utilizará para otros tipos de envíos masivos en un futuro próximo.

Identificadores de secuencias y números de acceso

Cada registro de GenBank, formado por una secuencia y sus anotaciones, tiene asignado un identificador único, el número de acceso, que comparten las tres bases de datos colaboradoras (GenBank, DDBJ, EMBL) y que permanece constante a lo largo de la vida del registro, incluso cuando se produce un cambio en la secuencia o en la anotación. A cada versión de la secuencia de ADN dentro de un registro de GenBank se le asigna también un identificador único del NCBI, denominado «gi», que aparece en la línea VERSION de los registros del archivo plano de GenBank a continuación del número de acceso. Un tercer identificador de la forma ‘Accession.version’, que también aparece en la línea VERSION de los registros flatfile, contiene la información presente en los números gi y accession. Una entrada que aparece en la base de datos por primera vez tiene un identificador ‘Accession.version’ equivalente al número ACCESSION del registro GenBank seguido de ‘.1’ para indicar la primera versión de la secuencia para el registro, por ejemplo

ACCESIÓN AF000001

VERSIÓN AF000001.1 GI: 987654321

Cuando se realiza un cambio en una secuencia dada en un registro de GenBank, se emite un nuevo número gi para la secuencia y se incrementa la extensión de la versión del identificador ‘Accession.version’. El número de acceso para el registro en su conjunto no cambia y la secuencia más antigua sigue estando disponible con el antiguo identificador ‘Accession.version’ y gi.

Un sistema similar rastrea los cambios en las correspondientes traducciones de proteínas. Estos identificadores aparecen como calificadores para las características CDS en la parte FEATURES de una entrada de GenBank, por ejemplo /protein_id=’AAA00001.1′. Las traducciones de secuencias de proteínas también reciben su propio número gi único, que aparece como un segundo calificador en la característica CDS, por ejemplo /db_xref=’ GI:1233445′.

Asegurar el acceso estable a los datos de las secuencias

Es cada vez más popular que los grupos de investigación compartan nuevas secuencias biológicas y actualicen las existentes publicando directamente los datos en la web. Aunque esta es una forma cómoda y eficaz de compartir los datos entre un conjunto de colaboradores, si los datos originales y las actualizaciones no se envían también a un repositorio central, surgen tres problemas significativos: la vida útil de acceso a los datos puede reducirse, el contexto biológico completo de los datos puede no ser comprendido, y los datos existentes en las bases de datos centralizadas muy utilizadas quedarán obsoletos.

La naturaleza efímera de gran parte del contenido en la web es parte de la experiencia común de los usuarios de la web. En un intento de cuantificar la vida útil de los contenidos, se realizó un seguimiento de 360 páginas web seleccionadas al azar durante un periodo de 4 años, y se midió una vida media de sólo 2 años para el conjunto (9). Aunque una página web bien mantenida puede ciertamente persistir durante más de 2 años, la relativamente corta vida media reportada para este conjunto de páginas refleja los muchos factores que pueden intervenir para afectar el acceso a los datos publicados en la web.

Incluso durante el tiempo de vida accesible de los datos de secuencias publicadas en la web, sin embargo, el contexto biológico completo de una secuencia puede no ser comprendido si la secuencia no puede ser convenientemente comparada con otras-tal vez derivadas de organismos distantes relacionados que están más allá del alcance de la página web anfitriona.

Además, si las actualizaciones de las secuencias contenidas en las bases de datos centralizadas se hacen en una página web, pero no se hacen también en los registros correspondientes de la base de datos central, los datos más nuevos no llegarán a la comunidad investigadora más amplia y se perderá gran parte del impacto de los datos.

El envío de los datos de las secuencias a un repositorio centralizado como GenBank resuelve estos tres problemas. Los investigadores tienen garantizado un acceso estable a los datos a través de versiones bimensuales disponibles por FTP, interfaces mantenidas por el NCBI así como numerosas interfaces de terceros para un conjunto de datos uniforme, y la redundancia de archivos ofrecida por la colaboración tripartita de las Bases de Datos Internacionales de Secuencias de Nucleótidos. La combinación de nuevos datos con los de otros investigadores de todo el mundo dentro de una base de datos central proporciona un amplio contexto biológico que estimula los descubrimientos: mantener cada secuencia actualizada aumenta la utilidad de todas las secuencias de la base de datos.

RECOGIDA DE DATOS DEL GENBANCO

El sistema Entrez

Los registros de secuencias del GenBank son accesibles a través de Entrez (página web del autor), un sistema flexible de recuperación de bases de datos que abarca más de 30 bases de datos biológicas. Estas incluyen secuencias de ADN y proteínas derivadas de GenBank y otras fuentes, mapas del genoma, conjuntos de secuencias poblacionales, filogenéticas y ambientales, datos de expresión génica, la taxonomía del NCBI, información de dominios de proteínas, estructuras de proteínas de la Base de Datos de Modelado Molecular, MMDB (10); cada base de datos está vinculada a la literatura científica a través de PubMed y PubMed Central.

Búsqueda de similitud de secuencias BLAST

Las búsquedas de similitud de secuencias son el tipo de análisis más fundamental y frecuente que se realiza en los datos de GenBank. El NCBI ofrece la familia de programas BLAST (página web del autor) para detectar similitudes entre una secuencia de consulta y las secuencias de la base de datos (11,12). Las búsquedas de BLAST pueden realizarse en el sitio web del NCBI, o a través de un conjunto de programas independientes distribuidos por FTP. BLAST se discute en un artículo separado en este número (4).

Obtención de GenBank por FTP

El NCBI distribuye las publicaciones de GenBank en el formato tradicional de archivo plano, así como en el formato de Notación de Sintaxis Abstracta (ASN.1) utilizado para el mantenimiento interno. La publicación bimestral completa de GenBank y las actualizaciones diarias, que también incorporan datos de secuencias del EMBL y del DDBJ, están disponibles por FTP anónimo del NCBI en (página web del autor), así como en un sitio espejo en la Universidad de Indiana (página web del autor). La versión completa en formato de archivo plano está disponible como archivos comprimidos en el directorio ‘genbank’ con un conjunto no acumulativo de actualizaciones contenidas en ‘daily-nc’. En el directorio ‘tools’ del sitio FTP de GenBank se proporciona un script para convertir un conjunto de actualizaciones diarias en una actualización acumulativa.

Dirección postal

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tel: +1 301 496 2475; Fax: +1 301 480 9241.

Direcciones electrónicas

Página principal del NCBI: [email protected]

Envío de datos de secuencias a GenBank: [email protected]

Revisiones o notificación de publicación de entradas «confidenciales» de GenBank: [email protected]

Información general sobre el NCBI y sus servicios: [email protected]

CITAR GenBank

Si utiliza la base de datos GenBank en su investigación publicada, le pedimos que cite este trabajo.

La financiación para pagar los gastos de publicación en acceso abierto de este artículo fue proporcionada por los Institutos Nacionales de Salud.

Declaración de conflicto de intereses. Ninguno declarado.

1

Benson
D.A.

,

Karsch-Mizrachi
I.

,

Lipman
D.J.

,

Ostell
J.

,

Wheeler
D.L.

.

GenBank

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

16

20

)

2

Cochrane
G.

,

Aldebert
P.

,

Althorpe
N.

,

Andersson
M.

,

Baker
W.

,

Baldwin
A.

,

Bates
K.

,

Bhattacharyya
S.

,

Browne
P.

,

van denBroek
A.

, et al.

EMBL Nucleotide Sequence Database: developments in 2005

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

10

15

)

3

Okubo
K.

,

Sugawara
H.

,

Gojobori
T.

,

Tateno
Y.

.

DDBJ en la preparación de la visión general de las actividades de investigación detrás de la presentación de datos

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

6

9

)

4

Wheeler
D.L.

,

Barrett
T.

,

Benson
D.A.

,

Bryant
S.H.

,

Canese
K.

,

Chetvernin
V.

,

Church
D.M.

,

DiCuccio
M.

,

Edgar
R.

,

Federhen
S.

, et al.

Recursos de bases de datos del National Center for Biotechnology Information

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

173

180

)

5

Boguski
M.S.

,

Lowe
T.M.

,

Tolstoshev
C.M.

.

dbEST-base de datos para ‘expressed sequence tags’

,

Nature Genet.

,

1993

, vol.

4

(pg.

332

333

)

6

Smith
M.W.

,

Holmsen
A.L.

,

Wei
Y.H.

,

Peterson
M.

,

Evans
G.A.

.

Muestreo de secuencias genómicas: una estrategia para el mapeo físico de alta resolución basado en secuencias de genomas complejos

,

Nature Genet.

,

1994

, vol.

7

(pg.

40

47

)

7

Kans
J.

,

Ouellette
B.

. ,

Bioinformática: Una Guía Práctica para el Análisis de Genes y Proteínas Capítulo Envío de Secuencias de ADN a las Bases de Datos

,

2001
NY
John Wiley and Sons, Inc.

(pg.

65

81

)

8

Kawai
J.

,

Shinagawa
A.

,

Shibata
K.

,

Yoshino
M.

,

Itoh
M.

,

Ishii
Y.

,

Arakawa
T.

,

Hara
A.

,

Fukunishi
Y.

,

Konno
H.

, et al.

Anotación funcional de una colección de ADNc de ratón de longitud completa

,

Nature

,

2001

, vol.

409

(pg.

685

690

)

9

Koehler
W.

.

Cambio y persistencia de la página web-un estudio longitudinal de cuatro años

,

J. Am. Soc. Inform. Sci. Technol.

,

2002

, vol.

53

(pg.

162

171

)

10

Marchler-Bauer
A.

,

Anderson
J.B.

,

Cherukuri
P.F.

,

DeWeese-Scott
C.

,

Geer
L.Y.

,

Gwadz
M.

,

He
S.

,

Hurwitz
D.I.

,

Jackson
J.D.

,

Ke
Z.

, et al.

CDD: a Conserved Domain Database for protein classification

,

Nucleic Acids Res.

,

2005

, vol.

33

(pg.

192

196

)

11

Altschul
S.F.

,

Madden
T.L.

,

Schäffer
A.A.

,

Zhang
J.

,

Zhang
Z.

,

Miller
W.

,

Lipman
D.J.

.

Gapped BLAST y PSI-BLAST: una nueva generación de programas de búsqueda en bases de datos de proteínas

,

Nucleic Acids Res.

,

1997

, vol.

25

(pg.

3389

3402

)

12

Zhang
Z.

,

Schäffer
A.A.

,

Miller
W.

,

Madden
T.L.

,

Lipman
D.J.

,

Koonin
E.V.

,

Altschul
S.F.

.

Búsquedas de similitud de secuencias de proteínas utilizando patrones como semillas

,

Nucleic Acids Res.

,

1998

, vol.

26

(pg.

3986

3990

)

.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.