GAP: planificación de agentes basada en gráficos con uso de herramientas paralelas y aprendizaje por refuerzo

Resumen: Los agentes autónomos impulsados por grandes modelos de lenguaje (LLM) han demostrado capacidades impresionantes en la manipulación de herramientas para la resolución de tareas complejas. Sin embargo, los paradigmas existentes como ReAct se basan en el razonamiento y la ejecución secuenciales, sin explotar el paralelismo inherente entre subtareas independientes. Este cuello de botella secuencial conduce a una utilización ineficiente de las herramientas y a un rendimiento subóptimo en escenarios de razonamiento de varios pasos. Presentamos la planificación de agentes basada en gráficos (GAP), un marco novedoso que modela explícitamente las dependencias entre tareas a través de una planificación basada en gráficos para permitir la ejecución adaptativa de herramientas en paralelo y en serie. Nuestro enfoque entrena modelos básicos de agentes para descomponer tareas complejas en gráficos de subtareas conscientes de la dependencia, determinando de forma autónoma qué herramientas se pueden ejecutar en paralelo y cuáles deben seguir dependencias secuenciales. Esta orquestación consciente de la dependencia logra mejoras sustanciales tanto en la eficiencia de la ejecución como en la precisión de las tareas. Para entrenar GAP, construimos un conjunto de datos de alta calidad de seguimientos de planificación basados en gráficos derivados del punto de referencia de respuesta a preguntas de saltos múltiples (MHQA). Empleamos una estrategia de capacitación de dos etapas: ajuste fino supervisado (SFT) en el conjunto de datos curado, seguido de aprendizaje por refuerzo (RL) con una función de recompensa basada en la corrección en consultas muestreadas estratégicamente donde el razonamiento basado en herramientas proporciona el máximo valor. Los resultados experimentales en conjuntos de datos MHQA demuestran que GAP supera significativamente las líneas base tradicionales de ReAct, particularmente en tareas de recuperación de varios pasos, al tiempo que logra mejoras dramáticas en la eficiencia de la invocación de herramientas a través de la paralelización inteligente. La página del proyecto está disponible en: esta URL https.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Estudio de reproducibilidad de “Cooperar o colapsar: aparición de cooperación sostenible en una sociedad de agentes LLM”

MirrorBench: un marco extensible para evaluar la semejanza humana de los agentes proxy de usuario

Cuando la ayuda del desarrollador se convierte en deuda de seguridad: un análisis sistemático de comportamientos inseguros en los agentes de codificación de LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido