Resumen:Predecir las interacciones enzima-sustrato ha sido durante mucho tiempo un problema fundamental en bioquímica e ingeniería metabólica. Si bien los métodos existentes podrían aprovechar las bases de datos de pares enzima-sustrato seleccionados por expertos para que los modelos aprendan de las interacciones de pares conocidos, las bases de datos a menudo son escasas, es decir, solo hay ejemplos limitados e incompletos de dichos pares, y su mantenimiento también requiere mucha mano de obra. Esta falta de datos de entrenamiento suficientes dificulta significativamente la capacidad de los modelos tradicionales de predicción de enzimas para generalizar a interacciones invisibles. En este trabajo, intentamos explotar las ecuaciones de reacciones químicas de bases de datos de dominios específicos, dada su fácil accesibilidad y sus datos más densos y abundantes. Sin embargo, las interacciones de múltiples compuestos, por ejemplo, eductos y productos, con las mismas enzimas crean patrones de datos relacionales complejos que los modelos tradicionales no pueden capturar fácilmente. Para abordar esto, representamos las ecuaciones de reacciones químicas como tripletas de (educto, enzima, producto) dentro de un gráfico de conocimiento, de modo que podamos aprovechar la incrustación de gráficos de conocimiento (KGE) para inferir los pares de enzima-sustrato que faltan para completar el gráfico. En particular, para capturar relaciones intrincadas entre compuestos, proponemos nuestro modelo de hipergráfico con conocimiento mejorado para la predicción de enzimas, es decir, Hyper-Enz, que integra un transformador de hipergráfico con un modelo KGE para aprender representaciones de los hiperbordes que involucran múltiples eductos y productos. Además, se introduce un paradigma de múltiples expertos para guiar el aprendizaje de las interacciones enzima-sustrato tanto con el modelo propuesto como con las ecuaciones de reacción química. Los resultados experimentales muestran una mejora significativa, con hasta un 88 % de mejora relativa en la precisión promedio de recuperación de enzimas y un 30 % de mejora en la predicción a nivel de pares en comparación con los modelos tradicionales, lo que demuestra la eficacia de nuestro enfoque.
Publicado originalmente en export.arxiv.org el 11 de enero de 2026.
Ver fuente original
