Resumen: El desarrollo del agente de aprendizaje de refuerzo tradicionalmente requiere una amplia experiencia y iteraciones largas, a menudo, lo que resulta en altas tasas de falla y accesibilidad limitada. Este documento presenta $ Agent^2 $, un nuevo marco de agente generado-agente que logra un diseño de agente RL totalmente automatizado a través de la generación inteligente de LLM. El sistema transforma de forma autónoma las descripciones de tareas del lenguaje natural y el código de entorno en soluciones integrales de aprendizaje de refuerzo de alto rendimiento sin intervención humana. $ Agente^2 $ presenta una arquitectura revolucionaria de doble agente. El agente generador sirve como un diseñador de IA autónomo que analiza las tareas y genera agentes RL ejecutables, mientras que el agente objetivo es el agente RL generado automáticamente. El marco descompone el desarrollo de RL en dos etapas distintas: modelado de MDP y optimización algorítmica, que permite una generación de agentes más dirigida y efectiva. Construido en el protocolo de contexto del modelo, $ Agent^2 $ proporciona un marco unificado que estandariza la creación de agentes inteligentes en diversos entornos y algoritmos, al tiempo que incorpora la gestión de capacitación adaptativa y el análisis de retroalimentación inteligente para la mejora continua. Experimentos extensos en una amplia gama de puntos de referencia, incluidos Mujoco, Metadrive, MPE y SMAC, demuestran que $ Agent^2 $ supera constantemente las soluciones diseñadas manualmente en todas las tareas, logrando una mejora del rendimiento hasta un 55% y ganancias sustanciales en promedio. Al habilitar la automatización verdaderamente de circuito cerrado de extremo a extremo, este trabajo establece un nuevo paradigma en el que los agentes inteligentes diseñan y optimizan a otros agentes, marcando un avance fundamental para los sistemas de IA automatizados.
Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original