Scopul general al bazei de date Pfam este de a oferi o clasificare completă și precisă a familiilor și domeniilor de proteine.[5] Inițial, raționamentul din spatele creării bazei de date a fost de a avea o metodă semiautomată de curățare a informațiilor privind familiile de proteine cunoscute pentru a îmbunătăți eficiența adnotării genomurilor.[6] Clasificarea Pfam a familiilor de proteine a fost adoptată pe scară largă de biologi datorită acoperirii largi a proteine și convenții de denumire sensibile.[7]
Acesta este utilizată de biologii experimentali care cercetează proteine specifice, de biologii structurali pentru a identifica noi obiective pentru determinarea structurii, de biologii computaționali pentru a organiza secvențe și de biologii evoluționiști care urmăresc originile proteinelor.[8] Proiectele genomului timpuriu, ar fi umane și utilizate pe scară largă de Pfam pentru adnotarea funcțională a datelor genomice.[9][10][11]
Site-ul Pfam permite utilizatorilor să prezinte secvențe de proteine sau ADN pentru a căuta potriviri familiilor din baza de date. Dacă ADN-ul este prezentat, se efectuează un cadru cu șase cadretranstrație, apoi fiecare cadru este căutat.[12] În loc să efectueze o căutare tipicăBLAST, Pfam folosește profilulmodelele Markov ascunse, care acordă o greutate mai mare potrivirilor laconservată site-uri, permițând o mai bună detectare a homologiei de la distanță, făcându-le mai potrivite pentru adnotarea genomurilor organismelor fără rude apropiate bine adnotate.[13]
Pfam a fost, de asemenea, utilizat în crearea altor resurse, cum ar fiiPfam[nefuncțională –arhivă], care cataloghează interacțiunile domeniu-domeniu în interiorul și între proteine, pe baza informațiilor din bazele de date de structură și cartografierea domeniilor Pfam pe aceste structuri.[14]
Intrările pot fi de mai multe tipuri: familie, domeniu, repetări sau motive. Familia este clasa implicită, ceea ce indică pur și simplu că membrii sunt înrudiți. Domeniile sunt definite ca o unitate structurală autonomă sau o unitate secvențială reutilizabilă care poate fi găsită în mai multe contexte proteice. Repetările nu sunt de obicei stabile în mod izolat, ci mai degrabă sunt de obicei necesare pentru a forma repetă tandem în scopul de a forma un domeniu sau o structură extinsă. Motivele sunt, de obicei, unități de secvență mai scurte găsite în afara domeniilor globulare.[9]
Descrierile familiilor Pfam sunt gestionate de publicul larg folosind Wikipedia (a se vedea Istoric).
La eliberarea variantei 29.0, 76.1% din secvențele de proteine în UniprotKB s-a potrivit cu cel puțin un domeniu Pfam.[15]
^Sammut, Stephen; Finn, Robert D.; Bateman, Alex (). „Pfam 10 years on: 10 000 families and still growing”.Briefings in Bioinformatics.9 (3): 210–219.doi:10.1093/bib/bbn010.PMID18344544.
^Lander, Eric S.; Linton, Lauren M.; Birren, Bruce; Nusbaum, Chad; Zody, Michael C.; et al. (). „Initial sequencing and analysis of the human genome”.Nature.409 (6822): 860–921.doi:10.1038/35057062.ISSN0028-0836.PMID11237011.
^Finn, R. D.; Marshall, M.; Bateman, A. (). „iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions”.Bioinformatics.21 (3): 410–412.doi:10.1093/bioinformatics/bti011.ISSN1367-4803.PMID15353450.