Resumen:La respuesta a preguntas del gráfico de conocimiento temporal (TKGQA) implica un razonamiento de múltiples saltos sobre relaciones de entidades temporalmente restringidas en el gráfico de conocimiento para responder una pregunta determinada. Sin embargo, en cada salto, los modelos de lenguaje grandes (LLM) recuperan subgrafos con numerosas relaciones temporalmente similares y semánticamente complejas, lo que aumenta el riesgo de decisiones subóptimas y propagación de errores. Para abordar estos desafíos, proponemos el marco de razonamiento mejorado de múltiples saltos (MRE), que mejora el razonamiento tanto hacia adelante como hacia atrás para mejorar la identificación de trayectorias de razonamiento globalmente óptimas. Específicamente, MRE comienza con ingeniería rápida para guiar al LLM en la generación de diversas trayectorias de razonamiento para una pregunta determinada. Luego se seleccionan trayectorias de razonamiento válidas para un ajuste fino supervisado, que sirve como estrategia de arranque en frío. Finalmente, presentamos la Optimización de políticas relativas a grupos de árboles (T-GRPO), un enfoque recursivo de aprendizaje por exploración estructurado en árboles. En cada salto, la exploración establece fuertes dependencias causales con el salto anterior, mientras que la evaluación se basa en la retroalimentación de la exploración de múltiples rutas de los saltos posteriores. Los resultados experimentales en dos puntos de referencia de TKGQA indican que el modelo basado en MRE propuesto supera consistentemente los enfoques de última generación (SOTA) en el manejo de consultas complejas de múltiples saltos. Un análisis más detallado destaca una mejor interpretabilidad y solidez ante anotaciones temporales ruidosas.
Publicado originalmente en export.arxiv.org el 5 de enero de 2026.
Ver fuente original
