KEGG (Kyoto Encyclopedia of Genes and Genomes, Enciclopedia de Xenes e Xenomas de Kyoto) é unha colección debases de datos sobrexenomas,vías biolóxicas,doenzas,fármacos, esubstancias químicas. KEGG utilízase para a investigaciónbioinformática e educación, incluíndo as análises de datos enxenómica,metaxenómica,metabolómica e outros estudosómicos, modelaxe e simulación enbioloxía de sistemas, einvestigación traducional nodesenvolvemento de fármacos.
O proxecto da base de datos KEGG iniciouno en 1995 Minoru Kanehisa, profesor do Instituto para a Investigación Química daUniversidade de Kyoto, baixo o entón en marchaPrograma Xenoma Humano xaponés.[1][2] Antecipando a necesidade dun recurso computerizado que se puidese utilizar para a interpretación biolóxica dedatos de secuencias xenómicas, este profesor empezou a desenvolver a base de datos KEGG PATHWAY. É unha colección de mapas de vías KEGG debuxadas manualmente que representan o coñecemento experimental sobremetabolismo e outras varias funcións dacélula e o organismo. Todos os mapas de vías conteñen unha rede de interaccións moleculares e reaccións e deseñouse para ligar osxenes do xenoma cosprodutos xénicos (principalmenteproteínas) da vía. Isto permitiu a análise chamada mapado de vías KEGG, no cal o contido de xenes no xenoma se compara coa base e datos KEGG PATHWAY para examinar cales son as vías e funcións que están probablemente codificadas no xenoma.
Segundo os seus desenvolvedores, KEGG é unha "representación en computador" do sistema biolóxico.[3] Integra bloques de construción eesquemas eléctricos (como os das redes eléctricas) do sistema, máis especificamente, bloques de construción de xenes e proteínas, bloques de construción químicos depequenas moléculas e reaccións, e esquemas eléctricos de redes de reaccións e interaccións moleculares. Este concepto lévase a cabo nas seguintes bases de datos de KEGG, que se categorizan en información de sistemas, de xenómica, de química e sobre saúde.[4]
A base de datos KEGG PATHWAY, a base de esquemas eléctricos, é o núcleo do recurso KEGG. É unha colección de mapas de vías que integra moitas entidades como xenes, proteínas,ARNs, compostos químicos, glicanos, e reaccións químicas, xunto con xenes causantes de enfermidades e dianas de drogas, os cales están almacenados como entradas individuais noutras bases de datos de KEGG. Os mapas de vías clasifícanse nas seguintes seccións:
A sección de metabolismo contén mapas globais debuxados esteticamente que mostran unha imaxe global do metabolismo, ademais de mapas das vías metabólicas normais. Os mapas globais de baixa resolución poden utilizarse, por exemplo, para comparar as capacidades metabólicas de diferentes organismos en estudos xenómicos e diferentes mostras ambientais en estudos metaxenómicos. En contraste, os módulos KEGG da base de datos KEGG MODULE son de maior resolución, con esquemas eléctricos localizados, que representan unidades funcionais máis concretas nun mapa de vía, como as subvías conservadas entre grupos de organismos específicos e complexos moleculares. Os módulos KEGG defínense como conxuntos de xenes característicos que poden ser ligados con capacidades metabólicas específicas e outras funciónsfenotípicas, para que poidan utilizarse para a interpretación automática de datos do xenoma e metaxenoma.
Outra base de datos que suplementa a KEGG PATHWAY é a base de datos KEGG BRITE. É unha base de datos deontoloxía que contén clasificacións xerárquicas de varias entidades como xenes, proteínas, organismos, doenzas, fármacos, e compostos químicos. Aínda que KEGG PATHWAY está limitada a interaccións moleculares e reaccións desas entidades, KEGG BRITE incorpora ademais moitos tipos distintos de relacións.
Varios meses despois de que se iniciase o proxecto KEGG en 1995, publicouse o primeiro informe sobre un xenoma bacteriano completamente secuenciado.[5] Desde entón, todos os xenomas completos secuenciados acumúlanse en KEGG tanto deeucariotas coma deprocariotas. A base de datos KEGG GENES contén información ao nivel de xene/proteína e a base de datos KEGG GENOME contén información a nivel de organismo para estes xenomas. A base de datos KEGG GENES consta de conxuntos de xenes de xenomas completos, e aos xenes de cada conxunto dánsellesanotacións en forma de correspondencias establecidas cos esquemas eléctricos dos mapas de vías KEGG, módulos KEGG, e xerarquías BRITE.
Estas correspondencias están feitas usando o concepto deortólogos. Os mapas de vías KEGG debúxanse baseándose en evidencias experimentais de organismos específicos, pero están deseñados para ser aplicables tamén a outros organismos, porque diferentes organismos, como poden ser un rato e un humano, comparten a miúdo vías idénticas que constan de xenes funcionalmente idénticos, chamados xenes ortólogos ou ortólogos. Todos os xenes na base de datos KEGG GENES están sendo agrupados en ditos ortólogos na base de datos KEGG ORTHOLOGY (KO). Como aos nodos (produtos xénicos) dos mapas de vías KEGG e aos módulos KEGG e xerarquías BRITE se lles dan identificadores KO, as correspondencias establécense unha vez que os xenes do xenoma son anotados con identificadores KO polo procedemento de anotación xenómica de KEGG.[4]
Os mapas de vías metabólicas KEGG debúxanse para representar os aspectos duais da rede metabólica: a rede xenómica do modo en que osencimas codificados no xenoma están conectados para catalizar reaccións consecutivas e a rede química do modo en que as estruturas químicas desubstratos eprodutos son transformados por estas reaccións.[6] Un conxunto de xenes encimáticos no xenoma identifican as redes de relacións encimáticas cando se superpoñen nos mapas de vías KEGG, que á súa vez caracterizan as redes de transformacións de estruturas químicas, o que permite a interpretación de potenciaisbiosintéticos e debiodegradación dos organismos. Alternativamente, un conxunto demetabolitos identificado no metaboloma serve para comprender as vías encimáticas e xenes de encimas implicados.
As bases de datos na categoría de información química, que en conxunto se chaman KEGG LIGAND, están organizadas por coñecementos tomados da rede química. Ao principio do proxecto KEGG, KEGG LIGAND constaba de tres bases de datos: KEGG COMPOUND para compostos químicos, KEGG REACTION para reaccións químicas, e KEGG ENZYME para reaccións na nomenclatura encimática.[7] Actualmente, hai bases de datos adicionais: KEGG GLYCAN para osglicanos[8] e dúas bases de datos auxiliares para reaccións chamada RPAIR (reactant pair alignments, aliñamentos do par reactivo) e RCLASS (clase de reacción).[9] KEGG COMPOUND foi tamén ampliado para que conteña varios tipos de compostos como osxenobióticos, ademais dos metabolitos.
En KEGG, as doenzas son consideradas como estados perturbados do sistema biolóxico causados por perturbantes de factores xenéticos e ambientais, e os fármacos considéranse como diferentes tipos de perturbantes.[10] A base de datos KEGG PATHWAY inclúe non só os estados normais senón tamén os estados perturbados dos sistemas biolóxicos. Porén, os mapas de vías da maioría das doenzas non se poden debuxar porque os seus mecanismos moleculares non se coñecen ben. Na base de datos KEGG DISEASE adóptase unha aproximación alternativa, que simplemente cataloga os factores xenéticos e ambientais coñecidos das doenzas. Estes catálogos poden finalmente levar a elaborar esquemas eléctricos de doenzas máis completos.
A base de datos KEGG DRUG conténingredientes activos defármacos aprobados en Europa, Estados Unidos e o Xapón. Distínguense polas estruturas químicas e/ou os compoñentes químicos e son asociados con moléculas diana, encimas metabolizantes, e outras informacións de redes de interaccións moleculares nos mapas de vías KEGG e as xerarquías BRITE. Isto permite unha análise integrada de interaccións de fármacos con información xenómica. Os chamadosfármacos "crus" e outras substancias relacionadas coa saúde, que quedan fóra da categoría dos fármacos aprobados, son almacenados na base de datos KEGG ENVIRON. A base de datos na categoría de información sobre a saúde denomínanse en conxunto KEGG MEDICUS, que tamén inclúeprospectos de todos os fármacos comercializados no Xapón.
En 2011 KEGG introduciu un modelo de subscrición para a descarga FTP debido a un significativo recorte dO financiamento gobernamental. KEGG continúa estando dispoñible libremente por medio da súa páxina web, pero o modelo de subscrición suscitou discusións sobre a sostibilidade das bases de datosbioinformáticas.[11][12]