Resumen: Los modelos de lenguaje grande (LLM) se han convertido en uno de los avances tecnológicos más significativos en la inteligencia artificial en los últimos años. Su capacidad para comprender, generar y razonar con el lenguaje natural ha transformado la forma en que interactuamos con los sistemas de IA. Con el desarrollo de agentes basados en LLM y modelos de razonamiento basados en el aprendizaje de refuerzo, el estudio de aplicar el aprendizaje de refuerzo en los marcos de agentes se ha convertido en un nuevo enfoque de investigación. Sin embargo, todos los estudios anteriores enfrentan el desafío de decidir el proceso de llamadas de herramientas y el proceso de razonamiento simultáneamente, y la cadena de razonamiento se basó únicamente en el resultado sin procesar sin procesar con información y símbolos redundantes no relacionados con la tarea de la herramienta, que impone una gran carga de la capacidad del modelo a la razón. Por lo tanto, en nuestra investigación, propusimos un agente de marco jerárquico como la herramienta que separe el proceso de llamadas de herramientas y el proceso de razonamiento, que permite que el modelo se centre en el proceso de razonamiento verbalmente mientras otro agente maneja el proceso de llamada de herramienta. Nuestro trabajo había logrado resultados comparables con solo un ligero refuerzo de ajuste fino en 180 muestras, y había logrado un rendimiento excepcionalmente bueno en Bamboogle con un 63.2% de coincidencia exacta y 75.2% en la coincidencia exacta, excediendo Search-R1 en un 4,8% en coincidencia exacta y 3.2% en la coincidencia exacta.
Publicado Originalme en export.arxiv.org El 2 de julio de 2025.
Ver Fuente Original