Resumen: Los avances recientes en modelos de lenguaje grande (LLM) y sistemas de múltiples agentes han demostrado capacidades notables en tareas complejas de resolución de problemas, como investigaciones profundas, codificación de ambas y razonamiento matemático. Sin embargo, la mayoría de los sistemas de agentes múltiples existentes se basan en ingeniería de avance/flujo de trabajo manual con marcos de agentes sofisticados, haciéndolos computacionalmente ineficientes, menos capaces y no pueden beneficiarse del aprendizaje centrado en los datos. En este trabajo, presentamos la cadena de agentes (COA), un nuevo paradigma del razonamiento de LLM que permite la resolución de problemas complejos nativos de extremo a extremo de la misma manera que un sistema de agentes múltiples (es decir, la resolución de problemas múltiples con múltiples herramientas y múltiples agentes) dentro de un modelo. En la resolución de problemas de la cadena de agentes, el modelo activa dinámicamente los diferentes agentes de herramientas y los agentes de juego de roles para simular la colaboración de múltiples agentes de una manera de extremo a extremo. Para obtener habilidades de resolución de problemas de la cadena de los agentes de extremo a extremo en LLM, introducimos un marco de destilación de múltiples agentes para destilar sistemas de agentes múltiples de última generación en trayectorias de la cadena de agentes para el ajuste fino supervisado de agente. Luego usamos el aprendizaje de refuerzo de agente en tareas de agente verificable para mejorar aún más las capacidades de los modelos en la resolución de problemas de la cadena de agentes. Llamamos a los modelos de modelos resultantes de los modelos de Foundation (AFMS). Nuestros estudios empíricos demuestran que AFM establece un nuevo desempeño de última generación en diversos puntos de referencia tanto en la configuración de agentes web como en la configuración del agente de código. Hacemos toda la investigación, incluidos los pesos del modelo, el código para la capacitación y la evaluación, y los datos de capacitación, completamente de código abierto, que ofrece un punto de partida sólido para futuras investigaciones sobre modelos de agentes y RL de agente.

Publicado Originalme en export.arxiv.org El 19 de agosto de 2025.
Ver Fuente Original

Cadena de agentes: modelos de base de agentes de extremo a extremo a través de la destilación de múltiples agentes y RL de agente

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Graml: reconocimiento de objetivos dinámicos como aprendizaje métrico

Powerchain: Automatización del análisis de la cuadrícula de distribución con flujos de trabajo de AI de agente

Integración de métodos bayesianos con control predictivo de modelos basados ​​en redes neuronales: una revisión

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Integración de métodos bayesianos con control predictivo de modelos basados en redes neuronales: una revisión