Aprendizaje por refuerzo Razonamiento mejorado de múltiples saltos para la respuesta a preguntas de conocimiento temporal

Resumen:La respuesta a preguntas del gráfico de conocimiento temporal (TKGQA) implica un razonamiento de múltiples saltos sobre relaciones de entidades temporalmente restringidas en el gráfico de conocimiento para responder una pregunta determinada. Sin embargo, en cada salto, los modelos de lenguaje grandes (LLM) recuperan subgrafos con numerosas relaciones temporalmente similares y semánticamente complejas, lo que aumenta el riesgo de decisiones subóptimas y propagación de errores. Para abordar estos desafíos, proponemos el marco de razonamiento mejorado de múltiples saltos (MRE), que mejora el razonamiento tanto hacia adelante como hacia atrás para mejorar la identificación de trayectorias de razonamiento globalmente óptimas. Específicamente, MRE comienza con ingeniería rápida para guiar al LLM en la generación de diversas trayectorias de razonamiento para una pregunta determinada. Luego se seleccionan trayectorias de razonamiento válidas para un ajuste fino supervisado, que sirve como estrategia de arranque en frío. Finalmente, presentamos la Optimización de políticas relativas a grupos de árboles (T-GRPO), un enfoque recursivo de aprendizaje por exploración estructurado en árboles. En cada salto, la exploración establece fuertes dependencias causales con el salto anterior, mientras que la evaluación se basa en la retroalimentación de la exploración de múltiples rutas de los saltos posteriores. Los resultados experimentales en dos puntos de referencia de TKGQA indican que el modelo basado en MRE propuesto supera consistentemente los enfoques de última generación (SOTA) en el manejo de consultas complejas de múltiples saltos. Un análisis más detallado destaca una mejor interpretabilidad y solidez ante anotaciones temporales ruidosas.

Publicado originalmente en export.arxiv.org el 5 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Conoce al investigador que organiza una conferencia científica por y para AI

Conformidad e impacto social en los agentes de IA

Gestión de flujos de trabajo de análisis de fallas complejas con agentes de razonamiento y actuación basados ​​en LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Gestión de flujos de trabajo de análisis de fallas complejas con agentes de razonamiento y actuación basados en LLM