Movatterモバイル変換

Pfam

Матеріал з Вікіпедії — вільної енциклопедії.

Pfam —база даних сімействбілкових доменів. Кожне сімейство в ній представленомножинним вирівнюванням фрагментів білкових послідовностей іприхованої марковської моделлю (HMM). На березень 2017 року Pfam містилося 16 712 записів (сімейств), об'єднаних в 604 клани.^[1]

Історія

[ред. |ред. код]

База даних Pfam заснована в 1997 році дослідниками зІнституту Сенгера^[2] і активно підтримується консорціумом вчених з різних країн^[3]. З 2011 року для записів з відомої функціональної анотацією існують статті в англомовній Wikipedia^[4]. За даними 2014 року, майже для 80% послідовностей базиUniProt є інформація в Pfam^[5].

У журналі «Nucleic Acids Research» періодично виходять статті, що описують розвиток і стан Pfam^[6]. Версія Pfam 31.0 побудована по базі даних Pfamseq, заснованої на релізі UniProtKB 2016_10^[7]. Pfamseq містить 26,7 млн послідовностей^[1].

Структура Pfam

[ред. |ред. код]

У Pfam існує дві категорії сімейств: Pfam-A та Pfam-B. Сімейства не перекривають одне одного - в базі даних немає таких білків, в яких хоча б одна амінокислота належиала одночасно до двох різних доменів. Деякі сімейства, що мають загальне еволюційне походження і зберегли схожість на рівні послідовностей або структур, об'єднані в клани.

Pfam-A

[ред. |ред. код]

Pfam-A містить сімейства, які контролюються вручну. Для формування кожного сімейства Pfam-A будується вихідне вирівнювання (seed alignment) з його найбільш репрезентативних представників. На його основі створюєтьсяприхована марковська модель (HMM), також має назвупрофіль. Вона складається з станів «зіставлення», «вставка» і «делеція» для кожної колонкимножинного вирівнювання з присвоєними емісійними ймовірностями для всіх амінокислот в першому з цих станів^[2] . Дані емісійні ймовірності представлені для кожного сімейства на його сторінці у виглядіsequence logo.

Після цього здійснюється пошук за допомогою отриманої HMM по базі даних Pfamseq, відповідної останньому релізу UniProtKB. Усі послідовності, для яких рейтинг відповідності HMM перевищує певний поріг, встановлюваний вручну для кожного сімейства, включаються в повне вирівнювання (full alignment). Якщо виявляється, що деякі представники сімейства не знаходяться при пошуку за допомогою HMM, вихідне множинне вирівнювання редагується до досягнення оптимального результату^[8]. Отримані HMM зберігаються в базі даних Pfam і можуть бути використані для пошуку доменів в нових білкових послідовностях черезвебінтерфейс[Архівовано 22 березня 2019 уWayback Machine.].

Описи сімейств переважно містяться в Wikipedia і відкриті для публічного редагування. Однак, слід зазначити, що понад чверть усіх сімейств не має функціональної анотації, такі домени позначаються як DUF (англ. Domain of unknown function). Також для кожного сімейства міститься інформація про його представленості в різнихтаксонах, варіанти доменної структури маючих його білки іфілогенетичне дерево вихідного вирівнювання. У тих випадках, коли це можливо, присутні дані про білок-білкових взаємодіях, отримані за допомогою iPfam, і посилання на тривимірні структури в базі данихPDB.

Pfam-B

[ред. |ред. код]

На додаток до сімейств, що контролюються вручну, база даних Pfam також містить сімейства Pfam-B, які генеруються автоматично з використанням алгоритму кластеризації доменівADDA. Вони не мають функціональної анотації, і, як правило, мають значно гіршу якість в порівнянні з родинами Pfam-A. Деякі з них представляють собою регіони низької складності і не відображають дійсної спорідненості білкових послідовностей, тому рекомендується перевірка гомології представників сімейств Pfam-B за допомогою інших методів, наприклад,BLAST. Починаючи з Pfam 24.0, для 20000 найбільших сімейств Pfam-B побудовані HMM, і по ним можливо проводити пошук.^[9]

Підтримка Pfam-B закінчилася післяPfam 27.0.^[10]

Клани

[ред. |ред. код]

Клани — це об'єднання родин білкових доменів, що мають загальне еволюційне походження. Для формування кланів золотим стандартом служить порівняння тривимірних структур доменів, при їх відсутності також може використовуватися помітне перекриття профілів, схожість профілів (яке може бути визначене за допомогою алгоритму HHsearch) або схожість результатів пошуку по базі даних з використанням різних профілів (визначається за методом SCOOP)^[9]. Для кланів, також як і для родин Pfam-A, надається загальне вирівнювання всіх його представників, інформація про розподіл по таксонам, дані про білок-білкових взаємодіях і посилання на тривимірні структури.

Класифікація записів

[ред. |ред. код]

Запис Pfam - це набір схожих ділянок білкових послідовностей. Всі записи відносять до одного з шести типів^[4]:

Family (Сімейство) - базовий тип, набір родинних (гомологічних) ділянок;
Domain (Домен) - стійка структурна одиниця, або функціональна ділянка, зустрічається в різноманітних білкових архитектурах;
Repeat (Повтор) - коротка ділянка, яка є нестійкою у ізоляції, але утворює стабільну структуру, коли присутні кілька його копій;
Motif (Мотив) - коротка консервативна ділянка поза глобулярних доменів;
Coiled-Coil (суперспіральний блок) - області, що формують суперспіралі, тобто пучки з 2-7 скручених альфа-спіралей;
Disordered (неструктурований блок) - консервативні ділянки зі зміщеним амінокислотним складом, що не формують стійкої (глобулярної) структури.

Найчастіше термінfamily (сімейство) використовується, в тому числі на сайті Pfam, замість термінаentry (запис), що створює значну плутанину.

Можливості

[ред. |ред. код]

Сайт Pfam надає інтерактивний доступ до даних, а також можливість переглядати дані в графічному вигляді.

Вікно «Jump to...», присутнє на більшості сторінок Pfam, дозволяє швидко провести пошук родин чи кланів за ідентифікатором (ID) або коду доступу (accession). В верхній частині будь-якої сторінки Pfam є також вікно пошуку сімейств за ключовим словом, «keyword search»^[3].

Шляхом пошуку послідовності білка по бібліотеціHMM в Pfam можна з'ясувати його доменну архітектуру. Для багатьох відомих білкових послідовностей вона вже обчислена: щоб переглянути її, потрібно ввести ідентифікатор або код доступу послідовності у вікні вкладки «view a sequence» на головній сторінці сайта. Якщо ж послідовність не розпізнає Pfam, можна скористатисясторінкою пошуку[Архівовано 22 березня 2019 уWayback Machine.], де потрібно ввести амінокислотну або нуклеотидну послідовність^[3].

Якщо потрібно провести пошук великої кількості послідовностей, на вкладці«Batch search»[Архівовано 22 березня 2019 уWayback Machine.] сторінки пошуку можна завантажити файл з послідовностями в форматіFASTA, при цьому в кожному файлі має бути не більше 5000 послідовностей. У цьому випадку користувач отримує результати протягом 48 годин на e-mail адресу, яку потрібно також вказати на сторінці пошуку^[11] Також є можливість провести пошук локально, за допомогою скрипту «pfam_scan.pl». Для цього потрібно програмне забезпечення HMMER3, бібліотеки HMM і деякі інші додаткові файли, які можна знайти на сайті Pfam^[11].

У Pfam є обчислені доменні архітектури для протеомів бази Integr^[12]. Доступ до цих даних відкритий в графі «Proteomes» на сторінці«Browse»[Архівовано 16 січня 2019 уWayback Machine.]. Для представлених тут організмів є інформація про доменний склад і доменні архитектури їх білків.

Pfam також надає можливість пошуку білків по доменній архітектурі. Для цього на вкладці«Domain architecture»[Архівовано 22 березня 2019 уWayback Machine.] сторінки пошуку в спеціальному вікні потрібно вибрати домени, що входять або не входять до цільового білок, а також можна використовувати Java-аплет PfamAlyzer, що володіє більш широкими можливостями^[13].

Див. також

[ред. |ред. код]

Література

[ред. |ред. код]

Robert D. Finn, Alex Bateman, Jody Clements, Penelope Coggill, Ruth Y. Eberhardt, Sean R. Eddy, Andreas Heger, Kirstie Hetherington, Liisa Holm, Jaina Mistry, Erik L. L. Sonnhammer, John Tate, Marco Punta. Pfam: the protein families database // Nucleic Acids Research. — Oxford Journals, 2014. —№ 42(Database issue). —С. D222–D230.

Erik L. L. Sonnhammer, Sean R. Eddy, Richard Durbin. Pfam: a comprehensive database of protein domain families based on seed alignments. // Proteins. — New York, NY : Wiley-Liss, 1997. —№ 28(3). —С. 405-420.

Marco Punta, Penny C. Coggill, Ruth Y. Eberhardt, Jaina Mistry, John Tate, Chris Boursnell, Ningze Pang, Kristoffer Forslund, Goran Ceric, Jody Clements,Andreas Heger, Liisa Holm, Erik L. L. Sonnhammer, Sean R. Eddy, Alex Bateman, Robert D. Finn. The Pfam protein families database // Nucleic Acids Research. — Oxford Journals, 2012. —№ 40(Database issue). —С. D290–D301.

Volker Hollich, Erik L. L. Sonnhammer. PfamAlyzer: domain-centric homology search // Bioinformatics. — Oxford Journals, 2007. —№ 23(24). —С. 3382-3.

Примітки

[ред. |ред. код]

↑^а ^бPfam 31.0. Архіворигіналу за 16 січня 2019. Процитовано 15 січня 2019.
↑^а ^бSonnhammer et al, 1997.
↑^а ^б ^вPfam: Help. Архіворигіналу за 16 січня 2019. Процитовано 15 січня 2019.
↑^а ^бPunta et al, 2012.
↑Finn et al, 2014.
↑Pfam: Help. Архіворигіналу за 16 січня 2019. Процитовано 15 січня 2019.
↑Pfam: Help. Архіворигіналу за 16 січня 2019. Процитовано 15 січня 2019.
↑Sonnhammer et al та +1997.
↑^а ^бPfam: Help. Архіворигіналу за 16 січня 2019. Процитовано 15 січня 2019.
↑releases Pfam31. 0.
↑^а ^бhelp # tabview = tab2 Pfam: Help. Архіворигіналу за 17 січня 2019. Процитовано 15 січня 2019.
↑integr8 <EMBL-EBI. Архіворигіналу за 7 листопада 2018. Процитовано 15 січня 2019.
↑Hollich & Sonnhammer, 2007.

Отримано зhttps://uk.wikipedia.org/w/index.php?title=Pfam&oldid=35704417

Категорії:

Приховані категорії:

[8]ページ先頭