GenBank

Abstract

GenBank (R) ist eine umfassende Datenbank, die öffentlich zugängliche Nukleotidsequenzen für mehr als 240 000 benannte Organismen enthält, die in erster Linie durch Einsendungen von einzelnen Labors und durch Batch-Einsendungen von großen Sequenzierungsprojekten gewonnen wurden. Die meisten Einreichungen erfolgen über das webbasierte BankIt- oder das eigenständige Sequin-Programm, und die Zugangsnummern werden von den GenBank-Mitarbeitern nach Eingang vergeben. Der tägliche Datenaustausch mit der EMBL Data Library in Europa und der DNA Data Bank in Japan gewährleistet eine weltweite Abdeckung. GenBank ist über das Abfragesystem Entrez des NCBI zugänglich, das Daten aus den wichtigsten DNA- und Protein-Sequenzdatenbanken zusammen mit Taxonomie-, Genom-, Kartierungs-, Proteinstruktur- und Domäneninformationen sowie die biomedizinische Zeitschriftenliteratur über PubMed integriert. BLAST bietet Sequenzähnlichkeitssuchen in GenBank und anderen Sequenzdatenbanken. Vollständige zweimonatliche Veröffentlichungen und tägliche Aktualisierungen der GenBank-Datenbank sind über FTP verfügbar. Der Zugang zu GenBank und den zugehörigen Abfrage- und Analysediensten erfolgt über die NCBI-Homepage (Autoren-Webseite).

EINFÜHRUNG

GenBank (1) ist eine umfassende öffentliche Datenbank mit Nukleotidsequenzen und zugehörigen bibliographischen und biologischen Anmerkungen, die vom National Center for Biotechnology Information (NCBI), einer Abteilung der National Library of Medicine (NLM), auf dem Campus der US National Institutes of Health (NIH) in Bethesda, MD, aufgebaut und vertrieben wird.

Das NCBI baut die GenBank in erster Linie aus den von den Autoren eingereichten Sequenzdaten und aus der Masseneinreichung von EST (expressed sequence tag), GSS (genome survey sequence) und anderen Hochdurchsatzdaten von Sequenzierzentren auf. Das US Office of Patents and Trademarks steuert ebenfalls Sequenzen aus erteilten Patenten bei. GenBank, die EMBL Data Library (2) in Europa und die DNA Databank of Japan (DDBJ) (3) bilden die International Nucleotide Sequence Databases und sind Mitglieder einer langjährigen Zusammenarbeit, in der täglich Informationen ausgetauscht werden, um eine einheitliche und umfassende Sammlung von Sequenzinformationen zu gewährleisten. Das NCBI stellt die GenBank-Daten kostenlos über das Internet, über FTP und über eine breite Palette von webbasierten Abfrage- und Analysediensten zur Verfügung, die mit den GenBank-Daten arbeiten (4).

ORGANISATION DER DATENBANK

Seit ihrer Gründung hat sich die Größe der GenBank etwa alle 18 Monate verdoppelt. Derzeit enthält sie über 65 Milliarden Nukleotidbasen aus mehr als 61 Millionen Einzelsequenzen, wobei im vergangenen Jahr 15 Millionen neue Sequenzen hinzugekommen sind. Beiträge aus Whole Genome Shotgun (WGS)-Projekten ergänzen die Daten der traditionellen Abteilungen, so dass die Gesamtzahl der Basen 145 Milliarden übersteigt. Vollständige Genome (Author Webpage) machen weiterhin einen wachsenden Teil der Datenbank aus, wobei im vergangenen Jahr über 120 der mehr als 370 vollständigen mikrobiellen Genome in GenBank hinterlegt wurden. Auch die Zahl der Eukaryontengenome, für die eine signifikante Abdeckung und Zusammenstellung vorliegt, nimmt weiter zu. Inzwischen sind über 104 Zusammenstellungen verfügbar, darunter auch die des menschlichen Referenzgenoms.

Sequenzbasierte Taxonomie

Die Sequenzen der Datenbank sind klassifiziert und können mit Hilfe einer umfassenden sequenzbasierten Taxonomie (Autoren-Webseite) abgefragt werden, die vom NCBI in Zusammenarbeit mit EMBL und DDBJ und mit der wertvollen Unterstützung externer Berater und Kuratoren entwickelt wurde. Über 240 000 benannte Arten sind in GenBank vertreten, und jeden Monat kommen über 2900 neue Arten hinzu. Etwa 16 % der Sequenzen in GenBank sind menschlichen Ursprungs und 13 % aller Sequenzen sind menschliche ESTs. Nach dem Homo sapiens sind die wichtigsten Arten in der GenBank in Bezug auf die Anzahl der Basen Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis, und Canis familiaris.

GenBank-Datensätze und -Abteilungen

Jeder GenBank-Eintrag enthält eine kurze Beschreibung der Sequenz, den wissenschaftlichen Namen und die Taxonomie des Ausgangsorganismus, bibliografische Verweise und eine Merkmalstabelle (Autoren-Webseite), in der Bereiche von biologischer Bedeutung aufgeführt sind, wie z. B. kodierende Regionen und ihre Proteinübersetzungen, Transkriptionseinheiten, Wiederholungsregionen und Stellen, an denen Mutationen oder Veränderungen vorgenommen wurden.

Die Dateien in der GenBank-Distribution sind traditionell in „Abteilungen“ unterteilt, die grob taxonomischen Gruppen wie Bakterien (BCT), Viren (VRL), Primaten (PRI) und Nagetiere (ROD) entsprechen. In den letzten Jahren wurden weitere Abteilungen hinzugefügt, um spezifische Sequenzierungsstrategien zu unterstützen. In den letzten Jahren wurden Abteilungen zur Unterstützung spezifischer Sequenzierungsstrategien eingerichtet. Dazu gehören Abteilungen für EST-Sequenzen (Expressed Sequence Tag), GSS-Sequenzen (Genome Survey), HTG-Sequenzen (High Throughput Genomic), HTC-Sequenzen (High Throughput cDNA) und ENV-Sequenzen (Environmental Sample), insgesamt also 18 Abteilungen. Um den Datentransfer zu erleichtern, werden die größeren Abteilungen, wie EST und PRI, in mehrere Dateien für die zweimonatlichen GenBank-Veröffentlichungen auf der FTP-Seite des NCBI aufgeteilt.

Expressed Sequence Tags

ESTs sind weiterhin eine wichtige Quelle für neue Sequenzdatensätze und Gensequenzen, die in der GenBank-Veröffentlichung 155 über 21 Milliarden Nukleotidbasen umfassen. Im vergangenen Jahr ist die Zahl der ESTs um über 40 % auf insgesamt 38,3 Millionen Sequenzen gestiegen, die mehr als 1200 verschiedene Organismen repräsentieren. Die am stärksten vertretenen Organismen in der EST-Abteilung sind H. sapiens (7,8 Millionen Datensätze), M. musculus (4,7 Millionen Datensätze), O. sativa (1,2 Millionen Datensätze), Z. mays (1,1 Millionen Datensätze), B. taurus (1,1 Millionen Datensätze) und D. rerio (1,1 Millionen Datensätze). Im Rahmen der täglichen Verarbeitung der GenBank EST-Daten identifiziert das NCBI durch BLAST-Suchen alle Homologien für neue EST-Sequenzen und nimmt diese Informationen in die begleitende Datenbank dbEST auf (Webseite des Autors) (5). Die Daten in dbEST werden weiterverarbeitet, um die UniGene-Datenbank (Author Webpage) mit mehr als 1,2 Millionen genorientierten Sequenzclustern zu erstellen, die mehr als 70 Organismen repräsentieren und in (4) ausführlicher beschrieben werden.

Sequence-tagged sites (STSs), genome survey sequences (GSSs) und environmental sample sequences (ENV)

Die STS-Abteilung von GenBank (Author Webpage) enthält über 883 000 Sequenzen, darunter anonyme STSs, die auf genomischer Sequenz basieren, sowie genbasierte STSs, die von den 3′-Enden von Genen und ESTs abgeleitet sind. Diese STS-Datensätze enthalten in der Regel Kartierungsinformationen.

Die GSS-Abteilung von GenBank (Webseite des Autors) ist im vergangenen Jahr um 22 % auf insgesamt 14,9 Millionen Datensätze für über 600 Organismen angewachsen und umfasst über 9,4 Milliarden Nukleotidbasen. Bei den GSS-Datensätzen handelt es sich überwiegend um einzelne Leseproben von bakteriellen künstlichen Chromosomen („BAC-Enden“), die in einer Vielzahl von Genomsequenzierungsprojekten verwendet werden. Die am stärksten vertretenen Arten in der GSS-Abteilung sind Z. mays (2,0 Millionen Datensätze), M. musculus (1,5 Millionen Datensätze), H. sapiens (970 000 Datensätze) und C. familiaris (854 000 Datensätze). Menschliche GSS-Datensätze wurden zusammen mit den STS-Datensätzen bei der Zusammenstellung der BACs für das Humangenomprojekt verwendet (6).

Die ENV-Abteilung der GenBank enthält Nicht-WGS-Sequenzen, die durch Umweltprobenahmeverfahren gewonnen wurden, bei denen der Ursprungsorganismus unbekannt ist. Datensätze in der ENV-Abteilung enthalten „ENV“ im Schlüsselwortfeld und verwenden einen „/environmental_sample“-Qualifier im Quellenmerkmal. Zum Zeitpunkt der Veröffentlichung von GenBank 155 enthielt die ENV-Abteilung von GenBank über 275 000 Sequenzen mit 236 Millionen Basenpaaren, die mehr als 4900 Studien repräsentieren.

Hochdurchsatz-Genomsequenzen (HTC) und Hochdurchsatz-cDNA-Sequenzen (HTC)

Die HTG-Abteilung von GenBank (Autoren-Webseite) enthält unfertige genomische Datensätze im großen Maßstab, die sich im Übergang zu einem fertigen Zustand befinden (7). Diese Datensätze werden je nach Qualität der Daten als Phase 0-3 bezeichnet. Nach Erreichen von Phase 3, dem fertigen Zustand, werden die HTG-Datensätze in die entsprechende Organismusabteilung von GenBank verschoben. Zum Zeitpunkt der Veröffentlichung von GenBank 155 enthielt die HTG-Abteilung 15,9 Milliarden Basenpaare an Sequenzen, eine Zunahme von fast 3 Milliarden Basen im vergangenen Jahr.

Die HTC-Abteilung von GenBank nimmt HTC-Sequenzen auf. HTCs sind von Entwurfsqualität, können aber 5′-untranslatierte Regionen (5′-UTRs) und 3′-UTRs, teilweise kodierende Regionen und Introns enthalten. HTC-Sequenzen, die fertiggestellt und von hoher Qualität sind, werden in die entsprechende GenBank-Abteilung des Organismus verschoben. GenBank Release 155 enthielt mehr als 441 000 HTC-Sequenzen mit insgesamt über 539 Millionen Basen. Ein Projekt, das HTC-Daten erzeugt, wird in (8) beschrieben.

Whole genome shotgun sequence (WGS)

Über 80 Milliarden Basen WGS-Sequenz erscheinen in GenBank als Sätze von WGS-Contigs, von denen viele mit Anmerkungen versehen sind und aus einem einzigen Sequenzierungsprojekt stammen. Diese Sequenzen erhalten Zugangsnummern, die aus einer vierstelligen Projekt-ID, gefolgt von einer zweistelligen Versionsnummer und einer sechsstelligen Contig-ID bestehen. Die WGS-Zugangsnummer „AAAA01072744“ ist also der Contig-Nummer „072744“ der ersten Version des Projekts „AAAA“ zugeordnet. WGS-Sequenzierungsprojekte haben mehr als 18 Millionen Contigs zu GenBank beigesteuert, was einem Anstieg von 64 % im letzten Jahr entspricht. Diese Primärsequenzen wurden verwendet, um etwa 760 000 groß angelegte Zusammenstellungen von Gerüsten und Chromosomen zu erstellen. WGS-Projektkontigente für H. sapiens, C. familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces und mehr als 450 andere Organismen und Umweltproben sind verfügbar. Eine vollständige Liste der WGS-Projekte mit Links zu den Daten finden Sie auf der Autoren-Webseite.

WGS-Projekte können mit Anmerkungen versehen werden. Viele Genomprojekte mit geringer Abdeckung enthalten jedoch keine Annotation. Da diese Sequenzprojekte als Entwurf und nicht als vollständig angesehen werden, können diese Annotationen nicht von einer Assembler-Version zur nächsten verfolgt werden und sollten als vorläufig betrachtet werden.

Die Einsender von WGS-Sequenzen und genomischen Sequenzen im Allgemeinen werden dringend gebeten, eine neue Reihe von Evidenz-Tags der Form „/experimental=text“ und „/inference=TYPE:text“ zu verwenden, wobei „TYPE“ einer von mehreren Standard-Inferenztypen ist und „text“ aus strukturiertem Text besteht. Diese neuen Qualifikatoren ersetzen ‚evidence=experimental‘ bzw. ‚evidence=non-experimental‘, die nicht mehr unterstützt werden.

Special record types

Third Party Annotation

Third Party Annotation (TPA)-Datensätze unterstützen die Meldung veröffentlichter Sequenzanmerkungen durch einen anderen Wissenschaftler als den ursprünglichen Einreicher des primären Sequenzdatensatzes in DDBJ/EMBL/GenBank. TPA-Datensätze fallen in eine von zwei Kategorien: „experimentell“, wenn ein direkter experimenteller Nachweis für die Existenz des annotierten Moleküls vorliegt, und „schlussfolgernd“, wenn der experimentelle Nachweis indirekt ist. TPA-Sequenzen können durch Zusammenfügen einer Reihe von Primärsequenzen erstellt werden. Das Format eines TPA-Datensatzes (z. B. BK000016) ähnelt dem eines herkömmlichen GenBank-Datensatzes, enthält jedoch die Bezeichnung „TPA:“ am Anfang jeder Definitionszeile und die Schlüsselwörter „Third Party Annotation; TPA“ im Feld Keywords. Das Kommentarfeld der TPA-Datensätze listet die primären Sequenzen auf, die für den Aufbau der TPA-Sequenz verwendet wurden; das Primärfeld enthält die Basenbereiche der primären Sequenzen, die zur TPA-Sequenz beitragen.

Über 5000 TPA-Datensätze sind in der GenBank-Freigabe 155 enthalten, darunter über 2170 für Drosophila melanogaster, 950 für H. sapiens, 330 für O. sativa und 290 für M. musculus. TPA-Sequenzen werden erst dann veröffentlicht, wenn ihre Zugangsnummern oder Sequenzdaten und Annotationen in einer von Fachleuten begutachteten biologischen Zeitschrift erscheinen. TPA-Einreichungen bei GenBank können entweder mit BankIt oder Sequin vorgenommen werden. Weitere Informationen über TPA finden Sie auf der Autoren-Webseite.

GenBank CON-Datensätze für Zusammenstellungen kleinerer Datensätze

Obwohl viele Genome, wie z.B. bakterielle Genome, in GenBank als einzelne Sequenzen dargestellt werden, ist es vom Standpunkt des Datentransfers und der Analyse aus wünschenswert, einige sehr lange Sequenzen, wie z.B. Teile eukaryontischer Genome, in kleinere Segmente zu zerlegen. In diesen Fällen werden CON-Divisionsdatensätze für die gesamte Sequenz erstellt, die Anweisungen für den Zusammenbau enthalten, um die nahtlose Anzeige und den Download der vollständigen Sequenz zu ermöglichen. Viele CON-Datensätze enthalten auch Anmerkungen.

Aufbau der Datenbank

Die Sequenzen und biologischen Anmerkungen in GenBank und den kooperierenden Datenbanken EMBL und DDBJ werden in erster Linie von einzelnen Autoren an eine der drei Datenbanken übermittelt oder von Sequenzierzentren in Form von EST-, STS-, GSS-, HTC-, WGS- oder HTG-Sequenzen. Informationen werden täglich mit DDBJ und EMBL ausgetauscht, so dass die täglichen Aktualisierungen von den NCBI-Servern die neuesten verfügbaren Sequenzdaten aus allen Quellen enthalten.

Direkte elektronische Einreichung

Fast alle Datensätze gehen als direkte elektronische Einreichungen in GenBank ein (Author Webpage), wobei die meisten Autoren die Programme BankIt oder Sequin verwenden. Viele Zeitschriften verlangen von Autoren mit Sequenzdaten, dass sie die Daten als Bedingung für die Veröffentlichung an eine öffentliche Datenbank übermitteln.

Die Mitarbeiter von GenBank können einer Sequenzeinreichung in der Regel innerhalb von zwei Arbeitstagen nach Eingang eine Zugangsnummer zuweisen, und zwar fast 1600 pro Tag. Die Zugangsnummer dient als Bestätigung, dass die Sequenz eingereicht wurde, und ermöglicht es den Lesern von Artikeln, in denen die Sequenz zitiert wird, die Daten abzurufen. Direkt eingereichte Sequenzen werden einer Qualitätskontrolle unterzogen, bei der u. a. überprüft wird, ob sie mit Vektoren kontaminiert sind, ob die kodierenden Regionen korrekt übersetzt wurden, ob die Taxonomie stimmt und ob die bibliografischen Angaben korrekt sind. Ein Entwurf des GenBank-Datensatzes wird an den Autor zur Überprüfung zurückgegeben, bevor er in die Datenbank aufgenommen wird. Die Autoren können verlangen, dass ihre Sequenzen bis zur Veröffentlichung vertraulich behandelt werden. Da die GenBank-Richtlinien vorsehen, dass hinterlegte Sequenzdaten veröffentlicht werden, wenn die Sequenz- oder Zugangsnummer veröffentlicht wird, werden die Autoren angewiesen, die GenBank-Mitarbeiter über das Veröffentlichungsdatum des Artikels zu informieren, in dem die Sequenz zitiert wird, um eine rechtzeitige Freigabe der Daten zu gewährleisten. Obwohl nur der einreichende Wissenschaftler berechtigt ist, Sequenzdaten oder Anmerkungen zu ändern, werden alle Benutzer aufgefordert, Verzögerungen bei der Freigabe von Daten oder mögliche Fehler oder Auslassungen an GenBank zu melden: [email protected].

Das NCBI arbeitet eng mit Sequenzierzentren zusammen, um die rechtzeitige Aufnahme von Massendaten in GenBank für die öffentliche Freigabe sicherzustellen. GenBank bietet spezielle Batch-Verfahren für große Sequenziergruppen an, um die Dateneinreichung zu erleichtern, einschließlich des Programms ‚tbl2asn‘, das auf der Autoren-Webseite beschrieben wird.

Einreichung mit BankIt

Ungefähr ein Drittel der Autoreneinreichungen werden über das webbasierte Dateneinreichungs-Tool des NCBI, BankIt, eingereicht (Autoren-Webseite). Mit BankIt geben die Autoren Sequenzinformationen direkt in ein Formular ein und fügen biologische Anmerkungen wie kodierende Regionen oder mRNA-Merkmale hinzu. Freiform-Textfelder, Listenfelder und Pulldown-Menüs ermöglichen es dem Einreicher, die Sequenz weiter zu beschreiben, ohne Formatierungsregeln oder eingeschränkte Vokabulare lernen zu müssen. BankIt validiert Einreichungen, weist auf viele häufige Fehler hin und prüft mit einer BLAST-Variante namens Vecscreen auf Vektorkontamination, bevor es einen Datensatzentwurf im GenBank-Flat-File-Format erstellt, den der Einreicher überprüfen kann. BankIt ist das Tool der Wahl für einfache Einreichungen, insbesondere wenn nur ein oder eine geringe Anzahl von Datensätzen eingereicht werden soll (7). BankIt kann von den Einreichern auch zur Aktualisierung ihrer bestehenden GenBank-Datensätze verwendet werden.

Einreichung mit Sequin und tbl2asn

Das NCBI bietet auch ein eigenständiges, plattformübergreifendes Einreichungsprogramm namens Sequin (Autoren-Webseite) an, das interaktiv mit anderen NCBI-Sequenzabfrage- und Analysetools verwendet werden kann. Sequin verarbeitet einfache Sequenzen wie eine cDNA, aber auch segmentierte Einträge, phylogenetische Studien, Populationsstudien, Mutationsstudien, Umweltproben und Alignments, für die BankIt und andere webbasierte Einreichungswerkzeuge nicht gut geeignet sind. Sequin verfügt über komfortable Editier- und komplexe Annotationsmöglichkeiten und enthält eine Reihe von eingebauten Validierungsfunktionen zur Qualitätssicherung. Darüber hinaus ist Sequin in der Lage, große Sequenzen, wie z.B. das 5,6 Mb große Escherichia coli-Genom, zu bearbeiten und eine Vielzahl von Annotationen über einfache Tabellen einzulesen. Versionen für Macintosh-, PC- und Unix-Computer sind über anonymen FTP unter (Autoren-Webseite) im Verzeichnis ’sequin‘ verfügbar. Sobald eine Einreichung abgeschlossen ist, können die Einsender die Sequin-Datei per E-Mail an die Adresse ([email protected]) senden.

Einsender von großen, stark annotierten Genomen finden es vielleicht praktisch, das oben unter „Direkte Einreichung“ erwähnte Programm „tbl2asn“ zu verwenden, um eine mit einer Annotations-Pipeline erzeugte Annotations-Tabelle in einen ASN.1

Einreichung von Barcode-Sequenzen

Das Consortium for the Barcode of Life (CBOL) ist eine internationale Initiative zur Entwicklung von DNA-Barcoding als Instrument zur Charakterisierung von Organismenarten unter Verwendung einer kurzen DNA-Sequenz, die von einem Teil des Cytochromoxidase-Untereinheit-I-Gens abgeleitet ist. Das NCBI hat in Zusammenarbeit mit CBOL (Webseite des Autors) ein Online-Tool für die Masseneinreichung von Barcode-Sequenzen in GenBank (Webseite des Autors) entwickelt, mit dem die Benutzer Dateien mit einer Reihe von Sequenzen und den zugehörigen Quellinformationen hochladen können. Es wird erwartet, dass dieses Tool in naher Zukunft auch für andere Arten von Masseneinreichungen verwendet wird.

Sequenzidentifikatoren und Zugangsnummern

Jedem GenBank-Datensatz, der sowohl aus einer Sequenz als auch aus ihren Anmerkungen besteht, wird ein eindeutiger Identifikator, die Zugangsnummer, zugewiesen, der von den drei zusammenarbeitenden Datenbanken (GenBank, DDBJ, EMBL) gemeinsam genutzt wird und während der gesamten Lebensdauer des Datensatzes konstant bleibt, auch wenn sich die Sequenz oder die Anmerkungen ändern. Jeder Version der DNA-Sequenz innerhalb eines GenBank-Datensatzes wird außerdem ein eindeutiger NCBI-Identifikator zugewiesen, der als „gi“ bezeichnet wird und in der VERSION-Zeile von GenBank-Flatfile-Datensätzen nach der Zugriffsnummer erscheint. Ein dritter Identifikator der Form „Accession.version“, der ebenfalls in der VERSION-Zeile von Flatfile-Datensätzen angezeigt wird, enthält die Informationen, die sowohl in der gi-Nummer als auch in der Hinterlegungsnummer enthalten sind. Ein Eintrag, der zum ersten Mal in der Datenbank erscheint, hat eine „Accession.version“-Kennung, die der ACCESSION-Nummer des GenBank-Datensatzes entspricht, gefolgt von „.1“, um die erste Version der Sequenz für den Datensatz anzugeben, z. B.

ACCESSION AF000001

VERSION AF000001.1 GI: 987654321

Wenn eine Änderung an einer in einem GenBank-Datensatz angegebenen Sequenz vorgenommen wird, wird eine neue GI-Nummer für die Sequenz vergeben und die Versionserweiterung des Bezeichners „Accession.version“ wird erhöht. Die Zugangsnummer für den gesamten Datensatz bleibt unverändert, und die ältere Sequenz bleibt unter der alten Kennung „Accession.version“ und gi verfügbar.

Ein ähnliches System verfolgt Änderungen in den entsprechenden Proteinübersetzungen. Diese Bezeichner erscheinen als Qualifier für CDS-Merkmale im FEATURES-Teil eines GenBank-Eintrags, z. B. /protein_id=’AAA00001.1′. Proteinsequenz-Übersetzungen erhalten auch ihre eigene eindeutige gi-Nummer, die als zweiter Qualifizierer für das CDS-Merkmal erscheint, z. B. /db_xref=‘ GI:1233445′.

Sicherstellung eines stabilen Zugangs zu Sequenzdaten

Forschungsgruppen stellen immer häufiger neue biologische Sequenzen zur Verfügung und aktualisieren bestehende Sequenzen, indem sie die Daten direkt ins Internet stellen. Dies ist zwar ein bequemer und effektiver Weg, um die Daten mit einer Reihe von Mitarbeitern zu teilen, aber wenn die Originaldaten und Aktualisierungen nicht auch an einen zentralen Speicher übermittelt werden, ergeben sich drei erhebliche Probleme: Die Zugriffsdauer der Daten kann sich verkürzen, der vollständige biologische Kontext der Daten wird möglicherweise nicht erkannt, und die bestehenden Daten in stark genutzten zentralen Datenbanken werden veraltet.

Die Kurzlebigkeit vieler Inhalte im Web ist Teil der allgemeinen Erfahrung von Web-Nutzern. In einem Versuch, die Lebensdauer von Inhalten zu quantifizieren, wurden 360 zufällig ausgewählte Webseiten über einen Zeitraum von 4 Jahren verfolgt, und es wurde eine Halbwertszeit von nur 2 Jahren für den Satz gemessen (9). Obwohl eine gut gepflegte Webseite sicherlich länger als 2 Jahre bestehen kann, spiegelt die relativ kurze Halbwertszeit, die für diesen Satz von Seiten berichtet wurde, die vielen Faktoren wider, die den Zugang zu im Internet veröffentlichten Daten beeinträchtigen können.

Selbst während der zugänglichen Lebensdauer von im Internet veröffentlichten Sequenzdaten kann jedoch der vollständige biologische Kontext einer Sequenz nicht erkannt werden, wenn die Sequenz nicht bequem mit anderen verglichen werden kann – vielleicht aus weit verwandten Organismen, die außerhalb des Bereichs der Host-Webseite liegen.

Wenn außerdem Aktualisierungen von Sequenzen, die in zentralen Datenbanken enthalten sind, auf einer Webseite vorgenommen werden, aber nicht auch die entsprechenden Datensätze in der zentralen Datenbank, erreichen die neueren Daten nicht die breitere Forschungsgemeinschaft, und ein Großteil der Wirkung der Daten geht verloren.

Die Übermittlung von Sequenzdaten an ein zentrales Repository wie GenBank löst diese drei Probleme. Forschern wird ein stabiler Zugang zu den Daten durch zweimonatliche Versionsveröffentlichungen, die über FTP verfügbar sind, durch die vom NCBI und zahlreichen Drittanbietern verwalteten Schnittstellen zu einem einheitlichen Datensatz und durch die von der dreigliedrigen International Nucleotide Sequence Databases Collaboration gebotene Archivredundanz gewährleistet. Die Kombination neuer Daten mit denen anderer Forscher auf der ganzen Welt in einer zentralen Datenbank bietet einen breiten biologischen Kontext, der zu Entdeckungen anregt – jede Sequenz auf dem neuesten Stand zu halten, vergrößert den Nutzen aller Sequenzen in der Datenbank.

RETRIEVING GenBank DATA

The Entrez system

Die Sequenzdatensätze in GenBank sind über Entrez (Author Webpage) zugänglich, ein flexibles Datenbanksystem, das über 30 biologische Datenbanken abdeckt. Dazu gehören DNA- und Proteinsequenzen aus GenBank und anderen Quellen, Genomkarten, Populations-, phylogenetische und umweltbezogene Sequenzdatensätze, Genexpressionsdaten, die NCBI-Taxonomie, Informationen über Proteindomänen und Proteinstrukturen aus der Molecular Modeling Database (MMDB) (10); jede Datenbank ist über PubMed und PubMed Central mit der wissenschaftlichen Literatur verknüpft.

BLAST-Sequenzähnlichkeitssuche

Die Sequenzähnlichkeitssuche ist die grundlegendste und häufigste Art der Analyse von GenBank-Daten. Das NCBI bietet die BLAST-Programmfamilie (Author Webpage) an, um Ähnlichkeiten zwischen einer Abfragesequenz und Datenbanksequenzen festzustellen (11,12). BLAST-Suchen können auf der Website des NCBI oder über eine Reihe von eigenständigen Programmen durchgeführt werden, die per FTP verteilt werden. BLAST wird in einem separaten Artikel in dieser Ausgabe behandelt (4).

Bezug von GenBank per FTP

Das NCBI verteilt GenBank-Veröffentlichungen sowohl im traditionellen Flat-File-Format als auch im ASN.1-Format (Abstract Syntax Notation), das für die interne Wartung verwendet wird. Die vollständige zweimonatliche GenBank-Veröffentlichung und die täglichen Aktualisierungen, die auch Sequenzdaten von EMBL und DDBJ enthalten, sind per anonymen FTP vom NCBI (Webseite des Autors) sowie von einer Spiegelseite an der Universität von Indiana (Webseite des Autors) erhältlich. Die vollständige Version im Flat-File-Format ist als komprimierte Dateien im Verzeichnis „genbank“ verfügbar, wobei ein nicht kumulativer Satz von Aktualisierungen in „daily-nc“ enthalten ist. Im Verzeichnis ‚tools‘ der GenBank-FTP-Site wird ein Skript bereitgestellt, mit dem ein Satz täglicher Aktualisierungen in eine kumulative Aktualisierung umgewandelt werden kann.

MAILING ADDRESS

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tel: +1 301 496 2475; Fax: +1 301 480 9241.

ELEKTRONISCHE ADRESSEN

NCBI-Homepage: [email protected]

Einreichung von Sequenzdaten in GenBank: [email protected]

Änderungen an oder Benachrichtigung über die Freigabe von „vertraulichen“ GenBank-Einträgen: [email protected]

Allgemeine Informationen über das NCBI und seine Dienstleistungen: [email protected]

ZITIEREN von GenBank

Wenn Sie die GenBank-Datenbank in Ihrer veröffentlichten Forschung verwenden, bitten wir Sie, diese Arbeit zu zitieren.

Die Finanzierung der Open-Access-Publikationsgebühren für diesen Artikel wurde von den National Institutes of Health zur Verfügung gestellt.

Erklärung zu Interessenkonflikten. Keine erklärt.

1

Benson
D.A.

,

Karsch-Mizrachi
I.

,

Lipman
D.J.

,

Ostell
J.

,

Wheeler
D.L.

.

GenBank

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

16

20

)

2

Cochrane
G.

,

Aldebert
P.

,

Althorpe
N.

,

Andersson
M.

,

Baker
W.

,

Baldwin
A.

,

Bates
K.

,

Bhattacharyya
S.

,

Browne
P.

,

van denBroek
A.

, et al.

EMBL Nucleotide Sequence Database: developments in 2005

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

10

15

)

3

Okubo
K.

,

Sugawara
H.

,

Gojobori
T.

,

Tateno
Y.

.

DDBJ in Vorbereitung einer Übersicht über die Forschungsaktivitäten hinter den Dateneinreichungen

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

6

9

)

4

Wheeler
D.L.

,

Barrett
T.

,

Benson
D.A.

,

Bryant
S.H.

,

Canese
K.

,

Chetvernin
V.

,

Church
D.M.

,

DiCuccio
M.

,

Edgar
R.

,

Federhen
S.

, et al.

Database resources of the National Center for Biotechnology Information

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

173

180

)

5

Boguski
M.S.

,

Lowe
T.M.

,

Tolstoshev
C.M.

.

dbEST-database for ‚expressed sequence tags‘

,

Nature Genet.

,

1993

, vol.

4

(pg.

332

333

)

6

Smith
M.W.

,

Holmsen
A.L.

,

Wei
Y.H.

,

Peterson
M.

,

Evans
G.A.

.

Genomic sequence sampling: a strategy for high resolution sequence-based physical mapping of complex genomes

,

Nature Genet.

,

1994

, vol.

7

(pg.

40

47

)

7

Kans
J.

,

Ouellette
B.

. ,

Bioinformatik: A Practical Guide to the Analysis of Genes and Proteins Chapter Submitting DNA Sequences to the Databases

,

2001
NY
John Wiley and Sons, Inc.

(pg.

65

81

)

8

Kawai
J.

,

Shinagawa
A.

,

Shibata
K.

,

Yoshino
M.

,

Itoh
M.

,

Ishii
Y.

,

Arakawa
T.

,

Hara
A.

,

Fukunishi
Y.

,

Konno
H.

, et al.

Functional annotation of a full-length mouse cDNA collection

,

Nature

,

2001

, vol.

409

(pg.

685

690

)

9

Koehler
W.

.

Webseitenwechsel und Persistenz-eine vierjährige Längsschnittstudie

,

J. Am. Soc. Inform. Sci. Technol.

,

2002

, vol.

53

(pg.

162

171

)

10

Marchler-Bauer
A.

,

Anderson
J.B.

,

Cherukuri
P.F.

,

DeWeese-Scott
C.

,

Geer
L.Y.

,

Gwadz
M.

,

He
S.

,

Hurwitz
D.I.

,

Jackson
J.D.

,

Ke
Z.

, et al.

CDD: a Conserved Domain Database for protein classification

,

Nucleic Acids Res.

,

2005

, vol.

33

(pg.

192

196

)

11

Altschul
S.F.

,

Madden
T.L.

,

Schäffer
A.A.

,

Zhang
J.

,

Zhang
Z.

,

Miller
W.

,

Lipman
D.J.

.

Gapped BLAST and PSI-BLAST: a new generation of protein database search programs

,

Nucleic Acids Res.

,

1997

, vol.

25

(pg.

3389

3402

)

12

Zhang
Z.

,

Schäffer
A.A.

,

Miller
W.

,

Madden
T.L.

,

Lipman
D.J.

,

Koonin
E.V.

,

Altschul
S.F.

.

Protein sequence similarity searches using patterns as seeds

,

Nucleic Acids Res.

,

1998

, vol.

26

(pg.

3986

3990

)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.