GenBank

Abstract

GenBank (R) este o bază de date cuprinzătoare care conține secvențe de nucleotide disponibile publicului pentru mai mult de 240 000 de organisme numite, obținute în principal prin trimiteri de la laboratoare individuale și trimiteri de loturi din proiecte de secvențiere la scară largă. Cele mai multe trimiteri se fac cu ajutorul programelor BankIt bazat pe internet sau Sequin independent, iar numerele de acces sunt atribuite de către personalul GenBank la primirea lor. Schimbul zilnic de date cu Biblioteca de date EMBL din Europa și cu Banca de date ADN din Japonia asigură o acoperire mondială. GenBank este accesibilă prin intermediul sistemului de recuperare al NCBI, Entrez, care integrează date din principalele baze de date de secvențe de ADN și proteine, împreună cu informații privind taxonomia, genomul, cartografierea, structura și domeniul proteinelor, precum și literatura de specialitate biomedicală prin intermediul PubMed. BLAST oferă căutări de similaritate a secvențelor în GenBank și în alte baze de date de secvențe. Versiunile complete bilunare și actualizările zilnice ale bazei de date GenBank sunt disponibile prin FTP. Pentru a accesa GenBank și serviciile sale conexe de recuperare și analiză, începeți de la pagina de pornire a NCBI (pagina web a autorului).

INTRODUCERE

GenBank (1) este o bază de date publică cuprinzătoare de secvențe de nucleotide și de adnotări bibliografice și biologice de sprijin, construită și distribuită de către National Center for Biotechnology Information (NCBI), o divizie a National Library of Medicine (NLM), situată în campusul US National Institutes of Health (NIH) din Bethesda, MD.

NCBI construiește GenBank în primul rând din transmiterea de date de secvență de la autori și din transmiterea în masă a etichetelor de secvență exprimată (EST), a secvenței de studiu a genomului (GSS) și a altor date de mare capacitate de la centrele de secvențiere. Biroul de brevete și mărci comerciale al SUA contribuie, de asemenea, cu secvențe din brevetele eliberate. GenBank, Biblioteca de date EMBL (2) din Europa și Banca de date ADN din Japonia (DDBJ) (3) cuprind bazele de date internaționale de secvențe de nucleotide și sunt membre ale unei colaborări de lungă durată în cadrul căreia se face zilnic schimb de informații pentru a asigura o colecție uniformă și cuprinzătoare de informații privind secvențele. NCBI pune la dispoziție gratuit datele GenBank pe internet, prin FTP și prin intermediul unei game largi de servicii de recuperare și analiză bazate pe web care operează cu datele GenBank (4).

ORGANIZAREA BAZEI DE DATE

De la înființare, GenBank și-a dublat dimensiunea la aproximativ fiecare 18 luni. În prezent conține peste 65 de miliarde de baze de nucleotide din mai mult de 61 de milioane de secvențe individuale, cu 15 milioane de secvențe noi adăugate în ultimul an. Contribuțiile provenite din proiecte de tip „whole genome shotgun” (WGS) completează datele din diviziunile tradiționale pentru a aduce totalul la peste 145 de miliarde de baze. Genomurile complete (pagina web a autorului) continuă să reprezinte o parte din ce în ce mai mare a bazei de date, peste 120 din cele peste 370 de genomuri microbiene complete din GenBank fiind depuse în ultimul an. Numărul de genomuri eucariote pentru care acoperirea și asamblarea sunt semnificative continuă să crească, de asemenea, cu peste 104 asamblări disponibile în prezent, inclusiv cea a genomului uman de referință.

Taxonomie bazată pe secvențe

Secvențele din baza de date sunt clasificate și pot fi interogate cu ajutorul unei taxonomii cuprinzătoare bazată pe secvențe (Pagina web a autorului), dezvoltată de NCBI în colaborare cu EMBL și DDBJ și cu ajutorul prețios al consilierilor și curatorilor externi. Peste 240 000 de specii denumite sunt reprezentate în GenBank, iar noi specii sunt adăugate în ritm de peste 2900 pe lună. Aproximativ 16% din secvențele din GenBank sunt de origine umană, iar 13% din toate secvențele sunt EST-uri umane. După Homo sapiens, cele mai importante specii din GenBank din punct de vedere al numărului de baze sunt Mus musculus, Rattus norvegicus, Bos taurus, Danio rerio, Zea mays, Oryza sativa, Strongylocentrotus purpuratus, Sus scrofa, Xenopus tropicalis și Canis familiaris.

Înregistrări și diviziuni GenBank

Care intrare GenBank include o descriere concisă a secvenței, denumirea științifică și taxonomia organismului sursă, referințe bibliografice și un tabel de caracteristici (pagina web a autorului) care enumeră zonele de importanță biologică, cum ar fi regiunile codificatoare și traducerile lor proteice, unitățile de transcripție, regiunile de repetiție și locurile de mutații sau modificări.

Arhivele din distribuția GenBank au fost împărțite în mod tradițional în „diviziuni” care corespund aproximativ grupurilor taxonomice, cum ar fi bacteriile (BCT), virușii (VRL), primatele (PRI) și rozătoarele (ROD). În ultimii ani, au fost adăugate diviziuni pentru a sprijini strategii specifice de secvențiere. În ultimii ani, au fost adăugate diviziuni pentru a sprijini strategii specifice de secvențiere. Acestea includ diviziuni pentru secvențe de etichete de secvență exprimată (EST), studii genomice (GSS), secvențe genomice de mare randament (HTG), secvențe ADNc de mare randament (HTC) și secvențe de probe de mediu (ENV), ceea ce face un total de 18 divizii. Pentru comoditatea transferului de fișiere, diviziunile mai mari, cum ar fi EST și PRI, sunt împărțite în mai multe fișiere pentru versiunile bimestriale ale GenBank pe site-ul FTP al NCBI.

Etichetele de secvență exprimată

EST continuă să fie o sursă majoră de noi înregistrări de secvențe și secvențe de gene, cuprinzând peste 21 de miliarde de baze nucleotidice în versiunea 155 a GenBank. În ultimul an, numărul de EST-uri a crescut cu peste 40%, ajungând la un total de 38,3 milioane de secvențe reprezentând peste 1200 de organisme diferite. Principalele organisme reprezentate în diviziunea EST sunt H.sapiens (7,8 milioane de înregistrări), M.musculus (4,7 milioane de înregistrări), O.sativa (1,2 milioane de înregistrări), Z.mays (1,1 milioane de înregistrări), B.taurus (1,1 milioane de înregistrări) și D.rerio (1,1 milioane de înregistrări). În cadrul procesării zilnice a datelor GenBank EST, NCBI identifică prin căutări BLAST toate omologiile pentru noile secvențe EST și încorporează aceste informații în baza de date însoțitoare, dbEST (pagina web a autorului) (5). Datele din dbEST sunt prelucrate în continuare pentru a produce baza de date UniGene (pagina web a autorului), care cuprinde peste 1,2 milioane de clustere de secvențe orientate spre gene, reprezentând peste 70 de organisme, descrise mai pe larg în (4).

Situații marcate cu secvențe (STS), secvențe de studiu al genomului (GSS) și secvențe de eșantioane de mediu (ENV)

Divizia STS a GenBank (Pagina web a autorului) conține peste 883 000 de secvențe, inclusiv STS anonime bazate pe secvențe genomice, precum și STS bazate pe gene derivate din capetele 3′ ale genelor și EST. Aceste înregistrări STS includ, de obicei, informații de cartografiere.

Divizia GSS a GenBank (pagina web a autorului) a crescut în ultimul an cu 22%, ajungând la un total de 14,9 milioane de înregistrări pentru peste 600 de organisme și cuprinde peste 9,4 miliarde de baze nucleotidice. Înregistrările GSS sunt predominant citiri unice din cromozomi artificiali bacterieni („BAC-ends”) utilizate într-o varietate de proiecte de secvențiere a genomului. Cele mai bine reprezentate specii în diviziunea GSS sunt Z.mays (2,0 milioane de înregistrări), M.musculus (1,5 milioane de înregistrări), H.sapiens (970 000 de înregistrări) și C.familiaris (854 000 de înregistrări). Înregistrările GSS umane au fost utilizate (pagina web a autorului), împreună cu înregistrările STS, în realizarea de BAC-uri pentru Proiectul Genomului uman (6).

Divizia ENV a GenBank găzduiește secvențe non-WGS obținute prin metode de eșantionare a mediului în care organismul sursă este necunoscut. Înregistrările din diviziunea ENV conțin „ENV” în câmpul keyword (cuvânt cheie) și utilizează un calificativ „/environmental_sample” în caracteristica sursă. Începând cu versiunea 155 a GenBank, diviziunea ENV a GenBank conținea peste 275 000 de secvențe, cuprinzând 236 de milioane de perechi de baze, reprezentând peste 4900 de studii.

Secvențe genomice de mare capacitate (HTC) și secvențe de ADNc de mare capacitate (HTC)

Diviziunea HTG a GenBank (pagina web a autorului) conține înregistrări genomice la scară largă neterminate care sunt în tranziție către o stare finalizată (7). Aceste înregistrări sunt desemnate ca fiind în faza 0-3, în funcție de calitatea datelor. La atingerea fazei 3, starea finalizată, înregistrările HTG sunt mutate în diviziunea corespunzătoare a organismului din GenBank. Începând cu versiunea 155 a GenBank, divizia HTG conținea 15,9 miliarde de perechi de baze de secvențe, o creștere de aproape 3 miliarde de baze în ultimul an.

Divizia HTC a GenBank găzduiește secvențe HTC. HTC-urile sunt de calitate draft, dar pot conține regiuni 5′-untranslated (5′-UTR) și 3′-UTR, regiuni de codificare parțială și introni. Secvențele HTC care sunt finalizate și de înaltă calitate sunt mutate în diviziunea GenBank corespunzătoare organismului. Versiunea 155 a GenBank conținea peste 441 000 de secvențe HTC, totalizând peste 539 de milioane de baze. Un proiect care generează date HTC este descris în (8).

Whole genome shotgun sequence (WGS)

Peste 80 de miliarde de baze de secvențe WGS apar în GenBank ca seturi de contigi WGS, multe dintre ele purtând adnotări, care provin dintr-un singur proiect de secvențiere. Acestei secvențe i se atribuie un număr de acces format dintr-un ID de proiect din patru litere, urmat de un număr de versiune din două cifre și un ID de contig din șase cifre. Astfel, numărul de acces WGS „AAAA01072744” este atribuit numărului de contig „072744” din prima versiune a proiectului „AAAA”. Proiectele de secvențiere WGS au contribuit cu peste 18 milioane de contigi la GenBank, ceea ce reprezintă o creștere de 64% în ultimul an. Aceste secvențe primare au fost utilizate pentru a construi aproximativ 760 000 de ansambluri la scară largă de schele și cromozomi. Sunt disponibile contig-uri ale proiectelor WGS pentru H.sapiens, C.familiaris, Pan trodlodytes, Macacca mulatta, Drosophila, Saccharomyces și peste 450 de alte organisme și eșantioane de mediu. Pentru o listă completă a proiectelor WGS cu linkuri către date, consultați pagina web a autorului.

Proiectele WGS pot fi adnotate. Cu toate acestea, multe proiecte de genom cu acoperire redusă nu conțin adnotare. Deoarece aceste proiecte de secvențe sunt considerate draft și nu sunt complete, este posibil ca aceste adnotări să nu fie urmărite de la o versiune de asamblare la alta și ar trebui să fie considerate preliminare.

Susținătorii de secvențe WGS, și secvențe genomice în general, sunt îndemnați să utilizeze un nou set de etichete de evidență de forma „/experimental=text” și „/inference=TYPE:text”, unde „TYPE” este unul dintre o serie de tipuri de inferență standard, iar „text” este alcătuit din text structurat. Acești noi calificative înlocuiesc „evidence=experimental” și, respectiv, „evidence=non-experimental”, care nu mai sunt acceptate.

Tipuri de înregistrări speciale

Third Party Annotation

Înregistrările TPA (Third Party Annotation) sprijină raportarea adnotării secvenței publicate de către un om de știință, altul decât cel care a trimis inițial înregistrarea secvenței primare în DDBJ/EMBL/GenBank. Înregistrările TPA se încadrează într-una dintre cele două categorii: „experimentală”, caz în care există o dovadă experimentală directă a existenței moleculei adnotate, și „inferențială”, caz în care dovada experimentală este indirectă. Secvențele TPA pot fi create prin asamblarea unui număr de secvențe primare. Formatul unei înregistrări TPA (de exemplu, BK000016) este similar cu cel al unei înregistrări GenBank convenționale, dar include eticheta „TPA:” la începutul fiecărei linii de definiție și cuvintele-cheie „Third Party Annotation; TPA” în câmpul „Keywords”. Câmpul Comment al înregistrărilor TPA enumeră secvențele primare utilizate pentru a asambla secvența TPA; câmpul Primary furnizează intervalele de baze ale secvențelor primare care contribuie la secvența TPA.

Peste 5000 de înregistrări TPA sunt conținute în versiunea 155 a GenBank, inclusiv peste 2170 pentru Drosophila melanogaster, 950 pentru H.sapiens, 330 pentru O.sativa și 290 pentru M.musculus. Secvențele TPA nu sunt puse la dispoziția publicului până când numerele de acces sau datele de secvență și adnotarea lor nu apar într-o revistă biologică evaluată de colegi. Transmiterea TPA către GenBank se poate face utilizând BankIt sau Sequin. Pentru mai multe informații despre TPA, a se vedea pagina web a autorului.

GenBank CON records for assemblies of smaller records

Deși multe genomuri, cum ar fi genomurile bacteriene, sunt reprezentate în GenBank ca secvențe unice, este de dorit, din punct de vedere al transferului și analizei datelor, să se fragmenteze unele secvențe foarte lungi, cum ar fi porțiuni de genomuri eucariote, în segmente mai mici. În aceste cazuri, se produc înregistrări de divizare CON pentru întreaga secvență, care conțin instrucțiuni de asamblare pentru a permite afișarea și descărcarea fără întreruperi a secvenței complete. Multe înregistrări CON includ, de asemenea, adnotări.

CONSTRUCȚIA BAZEI DE DATE

Secvențele și adnotările biologice din GenBank și din bazele de date colaboratoare EMBL și DDBJ sunt transmise în principal de autori individuali la una dintre cele trei baze de date sau de către centrele de secvențiere sub formă de loturi de secvențe EST, STS, GSS, HTC, WGS sau HTG. Informațiile sunt schimbate zilnic cu DDBJ și EMBL, astfel încât actualizările zilnice de pe serverele NCBI să încorporeze cele mai recente date de secvență disponibile din toate sursele.

Sesizare electronică directă

Principalitatea înregistrărilor intră în GenBank ca trimiteri electronice directe (Author Webpage), majoritatea autorilor folosind programele BankIt sau Sequin. Multe reviste solicită autorilor cu date de secvență să trimită datele într-o bază de date publică ca o condiție de publicare.

Personalul GenBank poate, de obicei, să atribuie un număr de acces la o trimitere de secvență în termen de două zile lucrătoare de la primire, și face acest lucru cu o rată de aproape 1600 pe zi. Numărul de acces servește drept confirmare a faptului că secvența a fost transmisă și permite cititorilor articolelor în care este citată secvența să recupereze datele. Trimiterile directe primesc o revizuire de asigurare a calității care include verificări privind contaminarea vectorilor, traducerea corectă a regiunilor de codificare, taxonomia corectă și citările bibliografice corecte. O versiune preliminară a înregistrării GenBank este transmisă autorului pentru a fi revizuită înainte de a fi introdusă în baza de date. Autorii pot solicita ca secvențele lor să fie păstrate confidențiale până la momentul publicării. Având în vedere că politica GenBank prevede ca datele de secvență depuse să fie făcute publice în momentul publicării secvenței sau a numărului de acces, autorii sunt instruiți să informeze personalul GenBank cu privire la data publicării articolului în care este citată secvența, pentru a asigura publicarea la timp a datelor. Deși numai cercetătorul care a depus datele de secvență sau adnotările este autorizat să modifice datele de secvență sau adnotările, toți utilizatorii sunt încurajați să raporteze întârzierile în publicarea datelor sau posibilele erori sau omisiuni la GenBank la adresa [email protected].

NCBI colaborează îndeaproape cu centrele de secvențiere pentru a asigura încorporarea la timp a datelor în vrac în GenBank în vederea publicării. GenBank oferă proceduri speciale de loturi pentru grupurile de secvențiere pe scară largă, pentru a facilita transmiterea datelor, inclusiv programul „tbl2asn”, descris la Author Webpage.

Submiterea folosind BankIt

Aproximativ o treime din datele transmise de autori sunt primite prin intermediul instrumentului de transmitere a datelor bazat pe web al NCBI, BankIt (Author Webpage). Utilizând BankIt, autorii introduc informații despre secvențe direct într-un formular și adaugă adnotări biologice, cum ar fi regiunile codificatoare sau caracteristicile ARNm. Casetele de text cu formă liberă, casetele de listă și meniurile derulante permit autorului să descrie în continuare secvența fără a fi nevoit să învețe reguli de formatare sau vocabulare restricționate. BankIt validează datele trimise, semnalând multe erori comune și verifică contaminarea vectorială folosind o variantă de BLAST numită Vecscreen, înainte de a crea un proiect de înregistrare în formatul de fișier plat GenBank pe care expeditorul îl poate revizui. BankIt este instrumentul preferat pentru prezentările simple, în special atunci când trebuie să se prezinte doar una sau un număr mic de înregistrări (7). BankIt poate fi, de asemenea, utilizat de către solicitanți pentru a-și actualiza înregistrările GenBank existente.

Submission using Sequin and tbl2asn

NCBI oferă, de asemenea, un program independent de transmitere pe mai multe platforme numit Sequin (pagina web a autorului) care poate fi utilizat în mod interactiv cu alte instrumente de recuperare și analiză a secvențelor NCBI. Sequin gestionează secvențe simple, cum ar fi un ADNc, precum și intrări segmentate, studii filogenetice, studii de populație, studii de mutație, probe de mediu și alinieri pentru care BankIt și alte instrumente de transmitere bazate pe web nu sunt bine adaptate. Sequin are capacități convenabile de editare și de adnotare complexă și conține o serie de funcții de validare încorporate pentru asigurarea calității. În plus, Sequin este capabil să acomodeze secvențe mari, cum ar fi cea a genomului Escherichia coli de 5,6 Mb, și să citească o serie completă de adnotări prin intermediul unor tabele simple. Versiunile pentru calculatoarele Macintosh, PC și Unix sunt disponibile prin FTP anonim la (pagina web a autorului) în directorul „sequin”. Odată ce o trimitere este finalizată, autorii pot trimite fișierul Sequin prin e-mail la adresa ([email protected]).

Autorii care trimit genomuri mari, puternic adnotate, pot găsi convenabil să utilizeze ‘tbl2asn’, la care s-a făcut referire mai sus la ‘Direct submission’, pentru a converti un tabel de adnotări generat prin intermediul unui pipeline de adnotare într-un ASN.1 potrivită pentru a fi trimisă la GenBank.

Submiterea secvențelor de coduri de bare

Consorțiul pentru codul de bare al vieții (Consortium for the Barcode of Life – CBOL) este o inițiativă internațională de dezvoltare a codului de bare de ADN ca instrument de caracterizare a speciilor de organisme folosind o scurtă secvență de ADN derivată dintr-o porțiune a genei subunității I a citocrom oxidazei. NCBI, în colaborare cu CBOL (pagina web a autorului), a creat un instrument online pentru transmiterea în masă a secvențelor de coduri de bare către GenBank (pagina web a autorului), care permite utilizatorilor să încarce fișiere care conțin un lot de secvențe cu informații asociate privind sursa. Se anticipează că acest instrument va fi utilizat pentru alte tipuri de depuneri în masă în viitorul apropiat.

Identificatori de secvențe și numere de acces

Cărei înregistrări GenBank, care constă atât dintr-o secvență, cât și din adnotările sale, i se atribuie un identificator unic, numărul de acces, care este partajat între cele trei baze de date colaboratoare (GenBank, DDBJ, EMBL) și rămâne constant pe toată durata de viață a înregistrării, chiar și atunci când are loc o modificare a secvenței sau a adnotării. Fiecărei versiuni a secvenței de ADN din cadrul unei înregistrări GenBank i se atribuie, de asemenea, un identificator NCBI unic, numit „gi”, care apare pe linia VERSION a înregistrărilor GenBank flatfile după numărul de acces. Un al treilea identificator de forma „Accession.version”, care apare, de asemenea, pe linia VERSION a înregistrărilor flatfile, conține informațiile prezente atât în gi, cât și în numerele de acces. O intrare care apare pentru prima dată în baza de date are un identificator „Accession.version” echivalent cu numărul de accesiune al înregistrării GenBank urmat de „.1” pentru a indica prima versiune a secvenței pentru înregistrarea respectivă, de exemplu

ACCESSION AF000001

VERSION AF000001.1 GI: 987654321

Când se face o modificare la o secvență dată într-o înregistrare GenBank, se atribuie un nou număr GI secvenței și se mărește extensia de versiune a identificatorului „Accession.version”. Numărul de acces pentru înregistrarea în ansamblu rămâne neschimbat, iar secvența mai veche rămâne disponibilă sub vechiul identificator „Accession.version” și gi.

Un sistem similar urmărește modificările în traducerile corespunzătoare ale proteinelor. Acești identificatori apar ca calificative pentru caracteristicile CDS în partea FEATURES a unei intrări GenBank, de exemplu /protein_id=’AAA00001.1′. Traducerile secvențelor de proteine primesc, de asemenea, propriul lor număr gi unic, care apare ca un al doilea calificativ pe caracteristica CDS, de exemplu /db_xref=’ GI:1233445′.

Asigurarea accesului stabil la datele de secvență

Devine din ce în ce mai popular pentru grupurile de cercetare să împărtășească noi secvențe biologice și să actualizeze secvențele existente prin postarea directă a datelor pe web. Deși aceasta este o modalitate convenabilă și eficientă de a partaja datele între un set de colaboratori, dacă datele originale și actualizările nu sunt, de asemenea, trimise la un depozit central, apar trei probleme semnificative; durata de viață de acces a datelor poate fi redusă, contextul biologic complet al datelor poate să nu fie realizat, iar datele existente în bazele de date centralizate foarte utilizate vor deveni depășite.

Natura efemeră a unei mari părți a conținutului de pe web face parte din experiența comună a utilizatorilor web. Într-o încercare de a cuantifica durata de viață a conținutului, 360 de pagini web selectate la întâmplare au fost urmărite pe o perioadă de 4 ani, iar pentru acest set a fost măsurat un timp de înjumătățire de numai 2 ani (9). Deși o pagină web bine întreținută poate, cu siguranță, să persiste mai mult de 2 ani, perioada de înjumătățire relativ scurtă raportată pentru acest set de pagini reflectă numeroșii factori care pot interveni pentru a afecta accesul la datele postate pe web.

Inclusiv în timpul duratei de viață accesibile a datelor de secvențe postate pe web, cu toate acestea, este posibil ca întregul context biologic al unei secvențe să nu fie realizat dacă secvența nu poate fi comparată în mod convenabil cu altele – poate derivate din organisme înrudite la distanță, care se află dincolo de domeniul de aplicare al paginii web gazdă.

În plus, dacă actualizările secvențelor conținute în bazele de date centralizate se fac pe o pagină web, dar nu se fac și la înregistrările corespunzătoare din baza de date centrală, datele mai noi nu vor ajunge la o comunitate de cercetare mai largă și o mare parte din impactul datelor se va pierde.

Submiterea datelor de secvență la un depozit centralizat, cum ar fi GenBank, rezolvă aceste trei probleme. Cercetătorilor li se asigură un acces stabil la date prin intermediul versiunilor bilunare versiuni disponibile prin FTP, al interfețelor întreținute de NCBI, precum și al numeroaselor interfețe terțe către un set de date uniform, precum și al redundanței arhivistice oferite de colaborarea tripartită International Nucleotide Sequence Databases. Combinarea noilor date cu cele ale altor cercetători din întreaga lume în cadrul unei baze de date centrale oferă un context biologic larg care stimulează descoperirea – menținerea la zi a fiecărei secvențe mărește utilitatea tuturor secvențelor din baza de date.

RECUPERAREA DATELOR GenBank

Sistemul Entrez

Înregistrările de secvențe din GenBank sunt accesibile prin Entrez (pagina web a autorului), un sistem flexibil de regăsire a bazelor de date care acoperă peste 30 de baze de date biologice. Acestea includ secvențe de ADN și proteine derivate din GenBank și din alte surse, hărți ale genomului, seturi de secvențe populaționale, filogenetice și de mediu, date de expresie genetică, taxonomia NCBI, informații despre domenii proteice, structuri proteice din baza de date de modelare moleculară, MMDB (10); fiecare bază de date este legată de literatura științifică prin intermediul PubMed și PubMed Central.

Cercetarea de similitudine a secvențelor BLAST

Cercetarea de similitudine a secvențelor este cel mai fundamental și mai frecvent tip de analiză efectuată asupra datelor GenBank. NCBI oferă familia de programe BLAST (pagina web a autorului) pentru a detecta similitudinile dintre o secvență de interogare și secvențele din baza de date (11,12). Căutările BLAST pot fi efectuate pe site-ul web al NCBI sau prin intermediul unui set de programe independente distribuite prin FTP. BLAST este discutat într-un articol separat în acest număr (4).

Obținerea GenBank prin FTP

NCBI distribuie versiunile GenBank în formatul tradițional de fișier plat, precum și în formatul Abstract Syntax Notation (ASN.1) utilizat pentru întreținerea internă. Versiunea bilunară completă a GenBank și actualizările zilnice, care încorporează, de asemenea, date de secvență de la EMBL și DDBJ, sunt disponibile prin FTP anonim de la NCBI la adresa (pagina web a autorului), precum și de pe un site oglindă de la Universitatea din Indiana (pagina web a autorului). Versiunea completă în format flat-file este disponibilă sub formă de fișiere comprimate în directorul „genbank”, cu un set de actualizări necumulative conținute în „daily-nc”. Un script este furnizat în directorul „tools” al site-ului FTP GenBank pentru a converti un set de actualizări zilnice într-o actualizare cumulativă.

MAILING ADDRESS

GenBank, National Center for Biotechnology Information, Building 38A, Room 3N-301-B, 8600 Rockville Pike, Bethesda, MD 20894, SUA. Tel: +1 301 496 2475; Fax: +1 301 480 9241.

ADRESE ELECTRONICE

NCBI Home Page: [email protected]

Submission of sequence data to GenBank: [email protected]

Revisions to or notification of release of „confidential” GenBank entries: [email protected]

Informații generale despre NCBI și servicii: [email protected]

CITAREA GenBank

Dacă folosiți baza de date GenBank în cercetările dumneavoastră publicate, vă rugăm să citați acest document.

Finanțarea pentru plata taxelor de publicare Open Access pentru acest articol a fost asigurată de National Institutes of Health.

Declarație privind conflictul de interese. Nici unul declarat.

1

Benson
D.A.

,

Karsch-Mizrachi
I.

,

Lipman
D.J.

,

Ostell
J.

,

Wheeler
D.L.

.

GenBank

,

Nucleic Acids Res.

,

2006

, vol.

34

(pag.

16

20

)

2

Cochrane
G.

,

Aldebert
P.

,

Althorpe
N.

,

Andersson
M.

,

Baker
W.

,

Baldwin
A.

,

Bates
K.

,

Bhattacharyya
S.

,

Browne
P.

,

van denBroek
A.

, et al.

EMBL Nucleotide Sequence Database: developments in 2005

,

Nucleic Acids Res.

,

2006

, vol.

34

(pag.

10

15

)

3

Okubo
K.

,

Sugawara
H.

,

Gojobori
T.

,

Tateno
Y.

.

DDBJ in preparation for overview of research activities behind data submissions

,

Nucleic Acids Res.

,

2006

,

2006

, vol. I, nr. 1.

34

(pg.

6

9

)

4

Wheeler
D.L.

,

Barrett
T.

,

Benson
D.A.

,

Bryant
S.H.

,

Canese
K.

,

Chetvernin
V.

,

Church
D.M.

,

DiCuccio
M.

,

Edgar
R.

,

Federhen
S.

, et al.

Resursele bazelor de date ale National Center for Biotechnology Information

,

Nucleic Acids Res.

,

2006

, vol.

34

(pg.

173

180

)

5

Boguski
M.S.

,

Lowe
T.M.

,

Tolstoshev
C.M.

.

dbEST-database for ‘expressed sequence tags’

,

Nature Genet.

,

1993

, vol.

4

(pag.

332

333

)

6

Smith
M.W.

,

Holmsen
A.L.

,

Wei
Y.H.

,

Peterson
M.

,

Evans
G.A.

.

Genomic sequence sampling: a strategy for high resolution sequence-based physical mapping of complex genomes

,

Nature Genet.

,

1994

, vol.

7

(pag.

40

47

)

7

Kans
J.

,

Ouellette
B.

. ,

Bioinformatică: A Practical Guide to the Analysis of Genes and Proteins Chapter Submitting DNA Sequences to the Databases

,

2001
NY
John Wiley and Sons, Inc.

(pg.

65

81

)

8

Kawai
J.

,

Shinagawa
A.

,

Shibata
K.

,

Yoshino
M.

,

Itoh
M.

,

Ishii
Y.

,

Arakawa
T.

,

Hara
A.

,

Fukunishi
Y.

,

Konno
H.

, et al.

Functional annotation of a full-length mouse cDNA collection

,

Nature

,

2001

, vol.

409

(pag.

685

690

)

9

Koehler
W.

.

Schimbarea și persistența paginilor web – un studiu longitudinal de patru ani

,

J. Am. Soc. Inform. Sci. Technol.

,

2002

, vol.

53

(pg.

162

171

)

>

10

Marchler-Bauer
A.

,

Anderson
J.B.

,

Cherukuri
P.F.

,

DeWeese-Scott
C.

,

Geer
L.Y.

,

Gwadz
M.

,

He
S.

,

Hurwitz
D.I.

,

Jackson
J.D.

,

Ke
Z.

, et al.

CDD: a Conserved Domain Database for protein classification

,

Nucleic Acids Res.

,

2005

, vol.

33

(pag.

192

196

)

11

11

Altschul
S.F.

,

Madden
T.L.

,

Schäffer
A.A.

,

Zhang
J.

,

Zhang
Z.

,

Miller
W.

,

Lipman
D.J.

.

Gapped BLAST și PSI-BLAST: o nouă generație de programe de căutare în bazele de date de proteine

,

Nucleic Acids Res.

,

1997

, vol. I, nr. 1.

25

(pg.

3389

3402

)

12

Zhang
Z.

,

Schäffer
A.A.

,

Miller
W.

,

Madden
T.L.

,

Lipman
D.J.

,

Koonin
E.V.

,

Altschul
S.F.

.

Protein sequence similarity searches using patterns as seeds

,

Nucleic Acids Res.

,

1998

, vol.

26

(pg.

3986

3990

) > .

Lasă un răspuns

Adresa ta de email nu va fi publicată.