Resumen: Los avances recientes en modelos de lenguaje grande (LLM) y sistemas de múltiples agentes han demostrado capacidades notables en tareas complejas de resolución de problemas, como investigaciones profundas, codificación de ambas y razonamiento matemático. Sin embargo, la mayoría de los sistemas de agentes múltiples existentes se basan en ingeniería de avance/flujo de trabajo manual con marcos de agentes sofisticados, haciéndolos computacionalmente ineficientes, menos capaces y no pueden beneficiarse del aprendizaje centrado en los datos. En este trabajo, presentamos la cadena de agentes (COA), un nuevo paradigma del razonamiento de LLM que permite la resolución de problemas complejos nativos de extremo a extremo de la misma manera que un sistema de agentes múltiples (es decir, la resolución de problemas múltiples con múltiples herramientas y múltiples agentes) dentro de un modelo. En la resolución de problemas de la cadena de agentes, el modelo activa dinámicamente los diferentes agentes de herramientas y los agentes de juego de roles para simular la colaboración de múltiples agentes de una manera de extremo a extremo. Para obtener habilidades de resolución de problemas de la cadena de los agentes de extremo a extremo en LLM, introducimos un marco de destilación de múltiples agentes para destilar sistemas de agentes múltiples de última generación en trayectorias de la cadena de agentes para el ajuste fino supervisado de agente. Luego usamos el aprendizaje de refuerzo de agente en tareas de agente verificable para mejorar aún más las capacidades de los modelos en la resolución de problemas de la cadena de agentes. Llamamos a los modelos de modelos resultantes de los modelos de Foundation (AFMS). Nuestros estudios empíricos demuestran que AFM establece un nuevo desempeño de última generación en diversos puntos de referencia tanto en la configuración de agentes web como en la configuración del agente de código. Hacemos toda la investigación, incluidos los pesos del modelo, el código para la capacitación y la evaluación, y los datos de capacitación, completamente de código abierto, que ofrece un punto de partida sólido para futuras investigaciones sobre modelos de agentes y RL de agente.
Publicado Originalme en export.arxiv.org El 19 de agosto de 2025.
Ver Fuente Original