L'article o secció necessita millores deformat. Molt text en negreta s'hauria de canviar per cursiva o estil normal |
| URL | https://www.uniprot.org/ |
|---|---|
| Tipus | Base de dades de seqüències de proteïnes |
| Tema | biologia,ésser humà,ratolí comú,growth hormone releasing hormone(en) |
| Llengua | anglès |
| Llicència | Domini públic |
| Part de | web semàntic,diagrama de dades obertes enllaçades,SIB Swiss Institute of Bioinformatics(en) |
| Creador | Consorci UniProt: EIB, SIB i PIR |
| Mantenidor | Alex Bateman,Sandra Orchard(en) |
| Llançament | 2002; fa 24 anys (2002) |
| Estat | Regne Unit,Suïssa iEstats Units d'Amèrica |
| Estat | Actiu |
UniProt (Universal Protein Resource) és unabase de dades de seqüències deproteïnes i la seva corresponent informació funcional. És de lliure accés i conté moltes entrades derivades de projectes deseqüenciació de genomes. Conté al voltant de 60 milions de seqüències de proteïnes, derivada de la literatura científica, sobre la funció biològica de les proteïnes, la qual s'actualitza a mesura que es genera més coneixement.[1][2]
Uniprot neix delconsorci UniProt que està format perEBI (European Bioinformatic Institute), SIB (Swiss Institute of Bioinformatics), organitzacions bioinformàtiques europees i PIR (Protein Information Resource) organització americana de dades de proteïnes. UniProt ofereix accés a quatre bases de dades de proteïnes:The UniProt Knowledgebase (UniProtKB),The UniProt Reference Clusters (UniRef),The UniProt Metagenomicsand Environmental Sequences database (UniMES) i The UniProt Archive (UniParc).[1][2]
Elconsorci UniProt comprèn l'Institut Europeu de Bioinformàtica (EBI), l'Institut Suís de Bioinformàtica (SIB) i elRecurs d'Informació de Proteïnes (PIR).
L'any 2002, EBI, SIB i PIR es van unir formant el consorci UniProt.[4]
Cadascun dels membres del consorci està molt implicat en el manteniment i l'anotació de bases de dades de proteïnes. Fins fa poc, EBI i SIB produïen de manera conjunta les bases de dadesSwiss-Prot iTrEMBL, mentre que PIR produïa la base de dades de seqüències de proteïnes (PIR-PSD). Aquestes bases de dades coexistien amb diferents prioritats de cobertura i anotació deseqüències de proteïnes.[5][6][7]
Swiss-Prot va ser creat inicialment l'any 1986 perAmos Bairoch durant el seu doctorat i desenvolupat per l'Institut Suís de Bioinformàtica, posteriorment va ser desenvolupat perRolf Apweiler a l'Institut Europeu de Bioinformàtica.[8][9] L'objectiu que pretenia complir Swiss-Prot era el de proporcionar seqüències proteiques fiables associades a un alt nivell d'anotació, com per exemple la descripció de la funció d'una proteïna, la seva estructura dedomini,modificacions post-traduccionals, variants, etc., un nivell mínim deredundància i un nivell d'integració amb altres bases de dades. Les dades de seqüències s'estaven creant a un ritme superior a la capacitat de Swiss-Prot, per mantenir-se al dia, aleshores es va crear TrEMBL (Translated EMBL Nucleotide Sequence Data Library), per tal de proporcionar anotacions automàtiques a les proteïnes que no apareixien a Swiss-Prot. Al mateix temps, PIR mantenia el PIR-PSD i bases de dades relacionades, inclosaiProClass, una base de dades de seqüències de proteïnes i famílies seleccionades.
Els membres del consorci van agrupar els seus recursos i coneixements superposats i van llançar UniProt el desembre de 2003.[10]

Sota el domini UniProt trobem tres bases de dades bàsiques:UniProtKB (amb els sub-partsSwiss-Prot iTrEMBL),UniParc iUniRef.
| UniProtKB/Swiss-Prot | UniProtKB/TrEMBL | UniParc | UniRef | |
|---|---|---|---|---|
| Revisió | Manual | Automàtica | Automàtica | Automàtica |
| Informació[11] | 550.000 seqüències | 60 milions de seqüències | Seqüènices que UniProtKB no considera prou importants: descatalogades, pseudogens, etc (desenvolupat a continuació). | Seqüències agrupades en clústers, amaga la redundància |

UniProt Knowledgebase (UniProtKB) és una base de dades de proteïnes revisada per experts, que consta de dues seccions. La primera ésSwiss-Prot i conté entrades revisades i anotades manualment per revisors. En segon lloc, hi haTrEMBL, que conté entrades no revisades per revisors però automàticament anotades. Així doncs, la diferència principal entre els dos webs és si el mètode de revisió de les seqüències és manual o automàtic.[12]
Les seqüències de proteïnes d'UniprotKB provenen de latranscripció de les seqüències denucleòtids codificants que proporciona EMBL-Bank/GeneBank/DDBJ. Al seu torn, aquestes seqüències són obtingudes a través de treball experimental o per programes de predicció de gens. A totes les seqüències traduïdes se'ls hi assigna un identificador que és elmateix en el web original d'EMBL-Bank/GeneBank/DDBJ i a UniProtKB.[13]
La necessitat de crear TrEMBL prové de la rapidesa en què es generen noves seqüències queimpossibilita la revisió exhaustiva de cadascuna. Com a solució, es va crear TrEMBL que emmagatzema seqüències revisades per mètodes computacionals d'alta qualitat. Aquests mètodes fins i tot permeten dur a terme classificacions i anotacions automàtiques. Presenten l'avantatge que poden fer-se públiques les noves seqüències amb més rapidesa i eldesavantatge que no estan revisades manualment i, per tant, la qualitat de les dades és inferior. Convé mantenir unaseparació entre els dos tipus de dades perquè no es dilueixin les dades d'alta qualitat.[13]
UniProtKB/Swiss-Prot és una base de dades de seqüències de proteïnes no redundants anotadesmanualment. Combina informació extreta de literatura científica i anàlisi computacional revisada per revisors. L'objectiu d'UniProtKB/Swiss-Prot és proporcionar tota la informació rellevant coneguda sobre una proteïna en particular. L'anotació esrevisa regularment per mantenir-se al dia amb els descobriments científics actuals. L'anotació manual d'una entrada implica una anàlisi detallada de la seqüència de proteïnes i de la literatura científica.[14]
Les seqüències del mateixgen i de la mateixaespècie es combinen en la mateixa entrada de base de dades. S'identifiquen les diferències entre seqüències i es documenta la seva causa que poden ser per exemple:empalmament alternatiu, variació natural, llocs d'iniciació incorrectes, límits d'exons incorrectes, desplaçaments de marcs de lectura, conflictes no identificats. Les prediccions computacionals s'avaluen manualment i es seleccionen els resultats rellevants per incloure'ls a l'entrada. Aquestes prediccions inclouen modificacions post-traduccionals,dominis transmembrana i topologia,pèptids senyal, identificació de dominis i classificació de famílies de proteïnes.[14]
Les publicacions rellevants s'identifiquen cercant en bases de dades comPubMed. Es llegeix el text complet de cada article i s'extreu informació i s'afegeix a l'entrada. L'anotació sorgida de la literatura científica inclou, entre d'altres:
| Trets que s'inclouen en l'anotació |
|---|
| Noms de proteïnes i gens |
| Funció |
| Informació específica d'enzims:activitat catalítica,cofactors, iresidus catalítics |
| Localització subcel·lular |
| Interacció entre proteïnes |
| Patrons d'expressió |
| Localització i rols de dominis i llocs importants |
| Ions,substrats i llocs d'unió de cofactor |
| Formes variants de les proteïnes produïdes per variació genètica natural,modificació de RNA, splicing alternatiu, processosproteolítics i modificacions post-transcripcionals |
Cada seqüència és revisada abans de ser inclosa en UniProtKB/Swiss-Prot i s'actualitza cada entrada quan hi ha informació nova.[14]
UniProtKB/TrEMBL conté les seqüències transcrites a partir de seqüències dEMBL-Bank/GeneBank/DDBJ que són processades automàticament i dirigides a UniProtKB/TrEMBL. A més també inclou seqüències de PDB i de predicció de gens comEnsembl,RefSeq iCCDS.[13]
El sistema computacional que permet l'anotació automàtica deseqüències no revisades manualment, permet augmentar la qualitat de les mateixes. El programa que utilitzen per a la classificació i anotació de dominis automàtica ésInterPro, que permet fer una anàlisi funcional de les seqüències que inclou: classificar-les en famílies, predir dominis inucleòtids importants. InterPro es basa en models predictius que provenen de diverses bases de dades que conformen el consorci InterPro.[15] Per altra banda, l'anotació automàtica es du a terme per dos sistemes:UniRule i ARBA (Association-Rule-Based Annotator). UniRule permet anotar:[16]
| UniRule |
|---|
| Nom de la proteïna |
| Funció |
| Activitat catalítica |
| Localització subcel·lular |
| Posicions on es duen a terme modificacions post-transcripcionals |
| Llocs catalítics |
ARBA utilitzaaprenentatge automàtic per crear les anotacionsmés precises basant-se en llargada de la seqüènecia, InterPro group membership i taxonomia. Això permet anotar propietats de la proteïna excloent el nom de la proteïna i caràcters que requereixen de predicció.[17]
UnProtKB conté la majoria de seqüències proteiques obertes al públic peròexclou les següents seqüències:[18]
| Seqüències excloses |
|---|
| Immunoglobulines i receptors decèlules T |
| Seqüències sintètiques |
| Seqüències que s'apliquen en patents |
| Seqüències inferiors a 8aminoàcids |
| Pseudogens |
| Seqüències de proteomes redundants |
| Seqüències que RefSeq i NCBI genomes considera de baixa qualitat |
| Proteïnes de fusió o truncades |
| Proteïnes no reals |
Algunes d'aquestes seqüències a vegades poden no ser reconegudes pels programes automàtics d'anotació i ser accidentalment incolses a UniProtKB. Per aquest motiu cal que, per exemple, el tipus 8 i 9 siguinexcloses manualment per revisors. Totes les excloses acaben a la secció UniParc.[18]

UniProt Archive (UniParc) és una bases de dades integral i no redundant, conté totes les seqüències de proteïnes de les principals bases de dades disponibles públicament. Les proteïnes poden existir en diverses bases de dades de fonts diferents i en diverses còpies a la mateixa base de dades. Per tal d'evitar la redundància, UniParcnomés emmagatzema una vegada cada seqüència única.[19]
Es combinen seqüències idèntiques independentment de que provinguin de la mateixa espècie o no. A cada seqüència se li proporciona un identificador únic i estable (UPI), quepermet identificar la mateixa proteïna a partir de diferents bases de dades d'origen. UniParc només conté seqüències de proteïnes, sense cap anotació. Les referències creuades de bases de dades a les entrades UniParc permeten obtenir més informació sobre la proteïna de les bases de dades d'origen. Quan canvien les seqüències de les bases de dades d'origen, aquests canvis són rastrejats per UniParc i s'arxiva a l'historial de tots els canvis.[20]
Actualment, UniParc conté seqüències de proteïnes de les següents bases de dades disponibles:
| Bases de dades d'on s'extreu la informació: |
|---|
| Bases de dades de nucleòtids:INSDC,EMBL-Bank/DDBJ/GenBank |
| Ensembl |
| European Patent Office (EPO) |
| FlyBase: the primary repository of genetic and molecular data for the insect family Drosophilidae (FlyBase) |
| H-Invitational Database (H-Inv) |
| International Protein Index (IPI) |
| Japan Patent Office (JPO) |
| Protein Information Resource (PIR-PSD) |
| Protein Data Bank (PDB) |
| Protein Research Foundation (PRF) |
| RefSeq |
| Saccharomyces Genome Database (SGD) |
| The Arabidopsis Information Resource (TAIR) |
| TROME |
| US Patent Office (USPTO) |
| UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot protein isoforms, UniProtKB/TrEMBL |
| Vertebrate and Genome Annotation Database (VEGA) |
| WormBase |

UniRef fa referència alsclústers de referència d'UniProt que consisteixen en tres bases de dades de conjunts agrupats de seqüències de proteïnes d’UniProtKB (incolent les isoformes) i registres seleccionats d’UniParc. Això amaga les seqüències redundants i obté una cobertura de l'espai de la seqüència a tres dimensions.[21]
Les seqüències UniRef100 s'agrupen mitjançant l'algorisme CD-HIT per construir UniRef90 i UniRef50.
Abans del 2013, no hi ha havia cap llindar de superposició, pel que els clústers tenien una longitud més heterogènia. UniRef90 i UniRef 50 van produir una reducció de mida de les bases de dades d'aproximadament un 58% i un 79% respectivament. L'agrupació de seqüències redueix significativament la mida de la base de dades i permet fer cerques de seqüències més ràpides.[23]
Cada clúster es compon de seqüències que tenen entre un 90% o un 50% d'identitat de seqüència, respectivament, fins a la seqüència més llarga. Però la seqüència més llarga no és sempre la més informativa. Sovint hi ha més informació rellevant biològicament en altres membres del clúster. Les proteïnes d'un clúster es classifiquen amb la següent prioritat per tal de facilitar la selecció d'un representat rellevant biològicament pel clúster:[23]
Uniprot conté tres eines principals:BLAST (Basic Alignment Search Tools),Align iRetrive/ID Mapping.[24]
Permet comprovar la similitud entre dues seqüències de proteïnes.[24]

Aquesta eina permet dur a terme alineaments múltiples mitjançant l'algoritmeClustal Omega per trobar àrees de semblança entre seqüències.[24]
Hi hadiverses formes d'utilitzar aquesta eina. Una d'elles és la següent:
Aquesta eina permet penjar una llista d'identificadors d’UniProt i cercar-los encentenars de bases externes. Gràcies a aquesta eina podem obtenir informació com l'estructura 3D, interaccions entre proteïnes, famílies i grups, química i modificacions post-transcripcionals entre d'altres.[24]
Una de les maneres d'utilitzar aquesta eina és la següent:
UniProt està finançat per subvencions de l'Institut Nacional de Recerca del Genoma Humà, elsInstituts Nacionals de Salut (NIH), laComissió Europea, el Govern Federal Suís a través de l’Oficina Federal d'Educació i Ciència,NCI-caBIG i el Departament de Defensa dels Estats Units.[25][26]