GenBank｜核酸研究

Abstract

GenBank (R) は、24万以上の生物の塩基配列を公開した総合データベースで、主に個々の研究室からの投稿や大規模シークエンスプロジェクトのバッチ投稿によって取得されたものである。ほとんどの投稿は、ウェブベースのBankItまたはスタンドアロンのSequinプログラムを用いて行われ、アクセッション番号はGenBankのスタッフが受領時に付与します。欧州のEMBLデータライブラリや日本のDNAデータバンクとの日々のデータ交換により、世界中をカバーしています。 GenBankは、NCBIの検索システムであるEntrezを通じてアクセスすることができます。このシステムには、主要なDNAおよびタンパク質配列データベースからのデータ、分類学、ゲノム、マッピング、タンパク質構造およびドメイン情報、PubMedを通じた生物医学雑誌文献が統合されています。 BLAST は、GenBank やその他の配列データベースの配列類似性検索を提供します。 GenBank データベースの完全な隔月リリースと毎日の更新を FTP で利用できます。 GenBankおよび関連する検索・解析サービスを利用するには、まずNCBIのホームページ（Author Webpage）をご覧ください。

INTRODUCTION

GenBank (1) は、塩基配列とそれを支える書誌・生体注釈の総合公開データベースで、米国国立衛生研究所（NIH）のベセスダ校にある国立医学図書館（NLM）の1部門、国立生物工学情報センター (NCBI) で構築・配布しているもので、メディカル・データベースと呼ばれています。

NCBI は、主に著者からの配列データの提出と、配列決定センターからの expressed sequence tag (EST), genome survey sequence (GSS), およびその他のハイスループットデータの大量提出によって GenBank を構築しています。また、米国特許商標庁は発行済み特許の配列を寄贈している。 GenBank、欧州のEMBL Data Library（2）、日本のDNAデータバンク（DDBJ）（3）は、国際塩基配列データベースを構成し、長年にわたる協力関係のもと、均一で包括的な配列情報の収集に日々情報交換が行われています。 NCBIはGenBankデータをインターネット、FTP、そしてGenBankデータ上で動作する幅広いウェブベースの検索・解析サービスを通じて無償で提供している(4)。現在、6100万以上の個々の配列から650億以上の塩基を含み、過去1年間に1500万個の新しい配列が追加されました。全ゲノムショットガン（WGS）プロジェクトからの寄与は、従来の部門のデータを補い、合計で1450億塩基を超えている。完全ゲノム（Author Webpage）は引き続きデータベースの大部分を占め、GenBankにある370以上の微生物完全ゲノムのうち120以上がこの1年間に寄託されました。また、真核生物のゲノムについても、カバー率とアセンブリの数が増加し続けており、参照ゲノムであるヒトゲノムを含む104以上のアセンブリが公開されています。 GenBankには24万種以上が登録されており、毎月2900種以上の割合で新種が追加されています。 GenBankの配列の約16％はヒト由来で、全配列の13％はヒトESTである。ホモ・サピエンスに続き、GenBankの塩基数上位種は、Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis, and Canis familiarisとなっている。

GenBank records and divisions

各GenBankエントリには、配列の簡潔な説明、ソース生物の学名と分類、参考文献、コーディング領域とそのタンパク質翻訳、転写ユニット、リピート領域、変異や修飾のサイトなど生物学的重要性を示す特徴のテーブル（著者ウェブページ）が含まれています。

GenBankのファイルは伝統的に、バクテリア（BCT）、ウイルス（VRL）、霊長類（PRI）、げっ歯類（ROD）といった分類群にほぼ対応する「部門」に分割されています。近年では、特定のシーケンス戦略をサポートするために部門が追加されています。近年、特定のシーケンシング戦略をサポートする部門が追加されました。 EST (expressed sequence tag), GSS (genome survey), HTG (high throughput genomic), HTC (high throughput cDNA), ENV (environmental sample) など、合計18の部門が存在します。ファイル転送の便宜上、ESTやPRIのような大きな部門は、NCBIのFTPサイトで隔月に公開されるGenBankのために複数のファイルに分割されている。

発現配列タグ

ESTs は引き続き新しい配列記録と遺伝子配列の主要ソースで、GenBank リリース155で210億塩基以上から構成されています。過去 1 年間で、EST の数は 40% 以上増加し、1200 以上の異なる生物を表す合計 3830 万の配列となりました。 EST部門の上位生物は、H.sapiens（780万レコード）、M.musculus（470万レコード）、O.sativa（120万レコード）、Z.mays（110万レコード）、 B.taurus（110 万レコード）、D.rerio（110万レコード）です。 NCBIはGenBank ESTデータの日々の処理の一環として、BLAST検索により新しいEST配列の相同性をすべて特定し、その情報をコンパニオンデータベースであるdbEST（著者ウェブページ）(5)に組み込んでいます。 dbESTのデータをさらに処理して、70以上の生物を代表する120万以上の遺伝子指向の配列クラスタからなるUniGeneデータベース（著者Webページ）が作成されている（4）。

Sequence-tagged sites (STSs), genome survey sequences (GSSs) and environmental sample sequences (ENV)

GenBankのSTS division (Author Webpage) には、ゲノム配列に基づく匿名STSと、遺伝子やESTの3末端に基づくSTSなど883 000以上の塩基配列が登録されています。 GENBANK (Author Webpage)のGSS部門は、過去1年間に22%増加し、600以上の生物について合計1490万レコード、94億塩基以上から構成されています。 GSSのレコードは、主に様々なゲノム解読プロジェクトで使用される細菌人工染色体（’BAC-ends’）からのシングルリードである。 GSSの対象種は、Z.mays（200万件）、M.musculus（150万件）、H.sapiens（97万件）、 C.familiaris（854 000件）であります。ヒト GSS レコードは、STS レコードとともに、ヒトゲノムプロジェクトの BAC のタイリングに使用されている (6)。

GenBank の ENV 部門は、環境サンプリング法により得られた、ソース生物が不明な非 WGS 配列に対応している。 ENV部門のレコードは、キーワードフィールドに’ENV’を含み、ソースフィーチャーに’/environmental_sample’修飾子が使用されている。 GenBank release 155の時点で、GenBankのENV部門には、4900以上の研究を代表する2億3600万塩基対、275000以上の配列が収録されています。

High-throughput genomic (HTC) and high-throughput cDNA (HTC) sequences

GenBank (Author Webpage) のHTG部門では、完成状態に移行中の、完成されていない大規模ゲノムレコードを掲載しています (注7). これらの記録は、データの質によってPhase 0-3に分けられています。 HTGの記録は、フェーズ3（完成状態）になると、GenBankの適切な生物部門に移される。 GenBank のリリース 155 日時点で、HTG 部門には 159 億塩基対の配列があり、過去 1 年間で約 30 億塩基の増加となっている

GenBank の HTC 部門には、HTC 配列が収容されている。 HTCはドラフト品質であるが、5′-untranslated region (5′-UTR) や3′-UTR、部分的なコーディング領域、イントロンを含むことがある。 HTCの配列は、完成度が高く、高品質なものは、適切な生物のGenBank部門に移される。 GenBankリリース155には、441,000以上のHTC配列、合計539,000,000以上の塩基が含まれている。 4761>

Whole genome shotgun sequence (WGS)

800億塩基以上のWGS配列が、単一のシーケンスプロジェクトに由来するWGSコンティグのセット（その多くは注釈付き）としてGenBankに掲載されています。これらの配列には、4文字のプロジェクトID、2桁のバージョン番号、および6桁のコンティグIDからなるアクセッション番号が付与されています。したがって、WGSのアクセッション番号「AAAA01072744」は、プロジェクト「AAAA」の最初のバージョンのコンティグ番号「072744」に割り当てられている。 WGSシーケンスプロジェクトは、GenBankに1800万以上のコンティグを寄贈し、過去1年間で64％増加しました。これらの一次配列は、約76万本の大規模な足場と染色体のアセンブリを構築するために使用された。 H.sapiens、C.familiaris、Pan trodlodytes、Macacca mulatta、Drosophila、Saccharomyces、その他450以上の生物および環境サンプルのWGSプロジェクトコンティグが利用可能です。 WGSプロジェクトの完全なリストとデータへのリンクは、Author Webpageをご覧ください。

WGS プロジェクトには注釈が付けられている場合があります。しかし、多くのローカバレッジゲノムプロジェクトはアノテーションを含んでいません。 WGS配列、および一般的なゲノム配列の提出者は、’/experimental=text’ および ‘/inference=TYPE:text’ 形式の新しい証拠タグのセットを使用するよう促されています。

特別なレコードタイプ

Third Party Annotation

Third Party Annotation (TPA) レコードは DDBJ/EMBL/GenBank で一次配列レコードのオリジナル提出者以外の科学者による公開配列注記を報告することをサポートしています。 TPA記録は、注釈された分子の存在について直接的な実験的証拠がある場合は「実験的」、実験的証拠が間接的な場合は「推論的」の2つのカテゴリーのいずれかに分類されます。 TPA配列は、いくつかの一次配列を組み合わせて作成することができる。 TPAレコード（例：BK000016）の形式は従来のGenBankレコードと同様であるが、各定義行の先頭に「TPA：」というラベルがあり、キーワードフィールドに「Third Party Annotation; TPA」というキーワードが含まれている。 TPAレコードのCommentフィールドにはTPA配列の構築に使用した一次配列が、PrimaryフィールドにはTPA配列に寄与した一次配列の塩基範囲が記載されている。

GenBank release 155には5000を超えるTPAレコードが含まれており、Drosophila melanogasterでは2170以上、H.sapiensでは950、 O.sativa 330および M.musculus 290がある。 TPAの配列は、アクセッション番号または配列データとアノテーションが査読付き生物学雑誌に掲載されるまで一般に公開されません。 GenBankへのTPAの提出は、BankItまたはSequinのいずれかを使用して行うことができます。 4761>

GenBank CON records for assemblies of smaller records

バクテリアゲノムなど多くのゲノムは単一配列としてGenBankに登録されていますが、真核生物ゲノムの一部など非常に長い配列はデータ転送や分析の観点から、小さなセグメントに分割することが望ましいとされています。このような場合、全配列をシームレスに表示・ダウンロードできるように、アセンブリ命令を含む全配列のCON分割レコードが作成される。また、多くのCONレコードには注釈も含まれています。

BUILDING THE DATABASE

GenBankおよび共同データベースであるEMBLとDDBJの配列と生物学的注釈は、主に個々の著者によって3つのデータベースのいずれかに、または配列決定センターによってEST、STS、GSS、HTC、WGS、HTG配列のバッチで提出されています。 DDBJおよびEMBLとの情報交換により、NCBIサーバーからの日々の更新に、すべてのソースからの最新の配列データが反映されるようになっている。

直接電子投稿

事実上すべての記録は直接電子投稿（著者ウェブページ）として、大多数の著者がBankItまたはSequinプログラムを用いてGenBankに入る。多くのジャーナルが、配列データを持つ著者に、出版条件として公開データベースへのデータ提出を要求しています。

GenBankスタッフは通常、配列提出を受け取ってから2営業日以内にアクセッション番号を付与でき、1日にほぼ1600件の割合で付与しています。アクセッション番号は、配列が提出されたことの確認と、その配列が引用されている論文の読者がデータを取得するためのものです。直接投稿されたものは、ベクター汚染、コード領域の適切な翻訳、正しい分類、正しい書誌引用などの品質保証審査を受ける。 GenBank レコードのドラフトは、データベースに登録される前に、レビューのために著者に返送されます。著者は、出版されるまで自分の配列を秘密にするよう依頼することができる。 GenBankの方針では、寄託された配列データは配列またはアクセッション番号が公開された時点で公開されることになっているので、著者はデータのタイムリーな公開を確実にするために、配列が引用された論文の公開日をGenBankスタッフに通知するよう指示される。シーケンスデータやアノテーションを修正できるのは投稿科学者のみですが、すべてのユーザーはデータ公開の遅れやエラーや欠落の可能性をGenBank [email protected] に報告することが奨励されています。

NCBI はシーケンスセンターと密接に協力して、バルクデータを一般公開用に GenBank にタイムリーに取り込むよう努力しています。 GenBankは大規模なシークエンシンググループのために、データ提出を容易にする特別なバッチ手順を提供しており、Author Webpageで説明されているプログラム’tbl2asn’も含まれる。

Submission using BankIt

著者提出データの約3分の1はNCBIのウェブ上のデータ提出ツール、BankIt (Author Webpage) を通じて受信されている。 BankIt を使用すると、著者は配列情報をフォームに直接入力し、コーディング領域や mRNA の特徴などの生物学的注釈を追加することができます。自由形式のテキストボックス、リストボックス、プルダウンメニューにより、投稿者は書式規則や制限された語彙を覚えることなく、配列をさらに詳しく説明することができます。 BankIt は、投稿を検証し、多くの一般的なエラーにフラグを立て、Vecscreen と呼ばれる BLAST の変種を使用してベクターの汚染をチェックし、投稿者がレビューできるように GenBank フラットファイル形式のドラフトレコードを作成します。 BankItは、特に1件または少数のレコードしか提出されない場合、単純な提出に適したツールです(7)。 4761>

Submission using Sequin and tbl2asn

NCBI は、Sequin (Author Webpage) というスタンドアロンのマルチプラットフォーム投稿プログラムも提供しており、他の NCBI 配列検索・解析ツールと対話的に使用することができる。 Sequin は cDNA のような単純な配列はもちろん、セグメント化されたエントリ、系統研究、集団研究、突然変異研究、環境サンプル、BankIt や他のウェブベースの投稿ツールがあまり適していないアラインメントを扱うことができる。 Sequinは便利な編集機能と複雑なアノテーション機能を備え、品質保証のための検証機能も多数内蔵しています。さらに、Sequinは5.6MBの大腸菌ゲノムのような大規模な配列に対応し、シンプルなテーブルを介して完全なアノテーションを読み込むことができます。 Macintosh、PC、Unix用のバージョンは、匿名FTPで(Author Webpage)の’sequin’ディレクトリから入手可能である。投稿が完了したら、投稿者は Sequin ファイルを電子メールで ([email protected]) に送ることができます。

大規模で大量のアノテーションを持つゲノムの投稿者は、上記の「直接投稿」で言及した ‘tbl2asn’ を使用して、アノテーションパイプラインで生成したアノテーションのテーブルを ASN.1 形式に変換すると便利だと思われるでしょう。 4761>

Submission of barcode sequences

The Consortium for the Barcode of Life (CBOL) is an international initiative to develop DNA barcoding as a tool for characterizing organisms using a short DNA sequence from a portion of the cytochrome oxidase subunit I gene. NCBIはCBOL (Author Webpage)と共同で、GenBank (Author Webpage)にバーコード配列を一括提出するためのオンラインツールを作成し、ユーザーは配列と関連するソース情報を含むファイルを一括してアップロードすることができます。

配列識別子とアクセッション番号

配列とその注釈からなる各GenBankレコードには、アクセッション番号という固有の識別子が割り当てられ、3つの共同データベース（GenBank、DDBJ、EMBL）で共有され、配列や注釈に変更があってもレコード期間中は一定に保たれています。 GenBankレコード内のDNA配列の各バージョンには、’gi’と呼ばれるNCBI固有の識別子が割り当てられ、GenBankフラットファイルレコードのVERSION行に、アクセッション番号の後に表示されます。また、フラットファイル記録のVERSION行に表示される’Accession.version’という形式の第3の識別子は、giとアクセッション番号の両方に存在する情報を含んでいる。データベースに初めて現れる項目は、GenBankレコードのACCESSION番号に相当する’Accession.version’識別子と、そのレコードの配列の最初のバージョンを示す’.1’が続く、例えば次のようになる。

ACCESSION AF000001

VERSION AF000001.1 GI: 987654321

GenBankレコードで与えられた配列に変更があると、その配列に新しいGI番号が付けられ、識別子のバージョン拡張子がインクリメントされます。レコード全体のアクセッション番号は変更されず、古い配列は古い「Accession.version」識別子とgi.

同様のシステムで、対応するタンパク質翻訳における変更も追跡されます。これらの識別子は、GenBankエントリーのFEATURES部分にCDS featureの修飾子として表示されます（例：/protein_id=’AAA00001.1’）。タンパク質配列翻訳には、独自のgi番号も付与され、これはCDSフィーチャーの2番目の修飾子として表示されます（例：/db_xref=’ GI:1233445′)。これは一連の共同研究者間でデータを共有する便利で効果的な方法であるが、元のデータや更新が中央リポジトリにも提出されない場合、3つの重大な問題が生じる。データのアクセス寿命が短くなり、データの完全な生物学的コンテキストが実現されず、多用されている中央データベース内の既存のデータが古くなるのだ。コンテンツの寿命を定量化するある試みでは、360 のランダムに選択した Web ページを 4 年間追跡し、そのセットの半減期をわずか 2 年と測定しました (9)。よく管理されたウェブページは確かに2年以上存続しうるが、このページ群について報告された比較的短い半減期は、ウェブ投稿データへのアクセスに影響を及ぼす多くの要因が介在しうることを反映している。

さらに、中央データベースに含まれる配列の更新がウェブページに行われ、中央データベースの対応するレコードにも行われない場合、新しいデータはより広い研究コミュニティに届かず、データの影響の多くが失われることになる。研究者は、FTPで利用可能なバージョンごとの隔月リリース、NCBIが維持管理する統一データセットへの多数のサードパーティーインターフェース、および3者構成の国際塩基配列データベース共同体が提供するアーカイブの冗長性によって、データへの安定したアクセスを保証される。また、GenBankの配列記録は、30以上の生物学的データベースをカバーする柔軟なデータベース検索システムであるEntrez (Author Webpage) を介してアクセス可能です。このデータベースには、GenBankやその他のソースから得られたDNAやタンパク質配列、ゲノムマップ、集団・系統・環境シーケンスセット、遺伝子発現データ、NCBI分類法、タンパク質ドメイン情報、分子モデリングデータベースMMDB (10) からのタンパク質構造、PubMedやPubMed Centralを介して科学文献とリンクした各データベースが含まれます。 NCBIはクエリー配列とデータベース配列の間の類似性を検出するプログラムのBLAST (Author Webpage) ファミリーを提供している(11,12)。 BLAST検索はNCBIのウェブサイトから行うこともできるし、FTPで配布されているスタンドアローンプログラムのセットで行うこともできる。 BLAST については本号の別記事（4）で解説している。

FTPによるGenBankの入手

NCBI はGenBankのリリースを従来のフラットファイル形式と、内部メンテナンスに使用する抽象構文記法（ASN.1）形式で配布している。隔月の完全なGenBankリリースと、EMBLやDDBJからの配列データも取り込んだ日々の更新は、NCBIの(Author Webpage) とIndiana大学のミラーサイト (Author Webpage) から匿名のFTPで入手可能です。フラットファイル形式の完全なリリースは、圧縮ファイルとして ‘genbank’ ディレクトリにあり、更新の非累積セットは ‘daily-nc’ に含まれています。 GenBank FTP サイトの ‘tools’ ディレクトリに、daily update のセットを cumulative update に変換するスクリプトが用意されています。

MAILING ADDRESS

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, USA. Tel: +1 301 496 2475; Fax: +1 301 480 9241.

ELECTRONIC ADDRESSES

NCBI Home Page: [email protected]

Submission of sequence data to GenBank: [email protected]

Revisions to or notification of release of ‘confidential’ GenBank entries.NECのホームページは、Gene Bankのホームページからダウンロードできます。 [email protected]

NCBIとサービスに関する一般情報: [email protected]

CITING GenBank

発表した研究でGenBankデータベースを使用した場合、この論文を引用するようお願いしています。

本論文のオープンアクセス掲載料を支払うための資金は、米国国立衛生研究所から提供されました。

利益相反の声明。 None declared.

Benson

D.A.

Karsch-Mizrachi

リップマン

D.J.

オステル

ウィラー

D.L.

Wheeler

。

GenBank

Nucleic Acids Res.

2006

, vol.

(pg..).

–

）

Cochrane

Aldebert

Althorpe

Andersson

Baker

W.B.

Berry

M.B. ,

M.B.

Berry ,

Baldwin

Bates

Bhattacharyya

S.B.

Bhattacharyya>

A.A.

Boldwin ,

Browne

van denBroek

, et al.・・・・・・・・。

EMBL Nucleotide Sequence Database: developments in 2005

Nucleic Acids Res.

2006

, vol.

(pg.).

–

）

Okubo

菅原

五條堀

立野

, といったところでしょうか？

DDBJ データ投稿の背景にある研究活動の概要の準備

Nucleic Acids Res.

2006

, vol.1.

(pg.

–

)

Wheeler

D.L.

Barrett

Benson

D.A.

Bryant

S.A.

D.A.

Bryant

S.A.

T.A. ,

Canese

Chetvernin

Curch

D.A.

Chetvernin

D.A.

DiCuccio

Edgar

Federhen

S.M.

D.M. ,

EdgarM.M.

, et al.

Database resources of the National Center for Biotechnology Information

Nucleic Acids Res.

2006

, vol.

(pg.

173

–

180

)

Boguski

M.L.

Boguski

M.L. (pg.

151

)S.

Lowe

T.M.

Tolstoshev

C.M.

.S.

T.M.

Lowe

T.M.

S.S.

dbEST-database for ‘expressed sequence tags’

Nature Genet.

1993

, vol.

(pg.).

332

–

333

）

Smith

M.A.S.S.S.S.S.S.S.S.S.S.S.S.S.S.S.S.S.S.W.

Holmsen

A.L.

Wei

Y.H.

Peterson

Evans

G.A.

Genomic Sequence Sampling: a strategy for high resolution sequence-based physical mapping of complex genomes

Nature Genet.

1994

, vol.

(pg..).

–

）

Kans

Ouellette

. ,

Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins Chapter Submitting DNA Sequences to the Databases

2001

John Wiley and Sons, Inc.

(pg.

–

)

Kawai

品川

柴田

吉野

伊藤

小林

小野

石井

荒川

原

, ,

福西

今野

, et al.・・・

原

Fukunishi

Fukunishi+

Functional annotation of a full-length mouse cDNA collection,

Nature

2001

, vol.

409

(pg.).

685

–

690

）

Koehler

Web ページの変化と持続性-4 年間の縦断的研究

J. Am. Soc. Inform. Sci. Technol.

2002

, vol.

(pg.

162

–

171

)

Marchler-Bauer

Anderson

J.B.

Cherukuri

P.F.

DeWeese-Scott

C.B.

D.B.

,D.B.,,

D.C.

B.B.

A.B.

Geer

L.Y.

Gwadz

S.H.

L.Y.

Geer

L.Y.

Geer

Hurwitz

D.I.

Jackson

J.D.

他

CDD.S.

Z: a Conserved Domain Database for protein classification

Nucleic Acids Res.

2005

, vol.

(pg.).

192

–

196

）

Altschul

S.F.

Madden

T.L.

シェーファー

A.A.

張

Z.A.

L.L.

Schäffer

Sz.A.

Miller

Lipman

D.J.

Miler

D.J.

Gapped BLAST and PSI-BLAST: a new generation of protein database search programs

Nucleic Acids Res.

1997

, vol.1.

(pg.

3389

–

3402

)

Zhang

Schäffer

A.A.

Miller

Madden

T.L.。

リップマン

D.J.

クーニン

E.V.

アルトシュール

S.F.

パターンを種としたタンパク質配列類似性検索

Nucleic Acids Res.

1998

, vol.

(pg.

3986

–

3990

)

Abstract

INTRODUCTION

GenBank records and divisions

発現配列タグ

Sequence-tagged sites (STSs), genome survey sequences (GSSs) and environmental sample sequences (ENV)

High-throughput genomic (HTC) and high-throughput cDNA (HTC) sequences

Whole genome shotgun sequence (WGS)

特別なレコードタイプ

Third Party Annotation

GenBank CON records for assemblies of smaller records

BUILDING THE DATABASE

直接電子投稿

Submission using BankIt

Submission using Sequin and tbl2asn

Submission of barcode sequences

配列識別子とアクセッション番号

FTPによるGenBankの入手

MAILING ADDRESS

ELECTRONIC ADDRESSES

CITING GenBank

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル