KnowCoder-A1: Incentivar la capacidad de razonamiento agente con supervisión de resultados para KBQA

Resumen: La respuesta a preguntas de la base de conocimientos (KBQA) tiene como objetivo responder preguntas en lenguaje natural a través de una base de conocimientos (KB) estructurada. Un trabajo reciente mejora KBQA al adoptar un paradigma de razonamiento agente, en el que los modelos de lenguaje grande (LLM) descomponen iterativamente una pregunta, generan sus consultas lógicas correspondientes e interactúan con el KB para derivar la respuesta. Sin embargo, estos métodos generalmente ajustan los LLM en trayectorias de razonamiento sintetizadas a través de la supervisión de procesos, lo que ofrece incentivos débiles para la exploración y, por lo tanto, no logra fortalecer la capacidad de razonamiento agente. En este artículo, proponemos KnowCoder-A1, un LLM que puede realizar de forma autónoma razonamiento agente en KB para obtener respuestas. Para incentivar la exploración autónoma, KnowCoder-A1 capacita al LLM bajo supervisión exclusiva de resultados a través de un aprendizaje de refuerzo curricular de varias etapas con un plan de estudios fácil a difícil. Para establecer capacidades agentes fundamentales, KnowCoder-A1 primero afina el LLM en un pequeño conjunto de trayectorias de alta calidad obtenidas a través de un muestreo de rechazo basado en resultados. Luego, para aliviar la escasez de recompensas inherente a la supervisión basada únicamente en resultados, aplica un plan de estudios de RL de múltiples etapas con programas de recompensas que progresan de fácil a difícil. KnowCoder-A1, entrenado con supervisión exclusiva de resultados, exhibe poderosos comportamientos de razonamiento y supera consistentemente los enfoques anteriores en tres conjuntos de datos principales. En particular, en el subconjunto de disparo cero de GrailQA, KnowCoder-A1 logra una mejora relativa de hasta el 11,1% mientras utiliza solo una doceava parte de los datos de entrenamiento, lo que demuestra sólidas capacidades de razonamiento agente.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Marque los pasos, no solo el objetivo: evaluación subggoal basada en VLM para la manipulación robótica

Más allá de Gemini-3-Pro: revisando el enrutamiento y la agregación de LLM a escala

¿Debería haber expresado una intención diferente? Generación contrafactual para control autónomo basado en LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido