En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->$ Agente^2 $: un agente generador-agente marco para la automatización de aprendizaje de refuerzo

$ Agente^2 $: un agente generador-agente marco para la automatización de aprendizaje de refuerzo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El desarrollo del agente de aprendizaje de refuerzo tradicionalmente requiere una amplia experiencia y iteraciones largas, a menudo, lo que resulta en altas tasas de falla y accesibilidad limitada. Este documento presenta $ Agent^2 $, un nuevo marco de agente generado-agente que logra un diseño de agente RL totalmente automatizado a través de la generación inteligente de LLM. El sistema transforma de forma autónoma las descripciones de tareas del lenguaje natural y el código de entorno en soluciones integrales de aprendizaje de refuerzo de alto rendimiento sin intervención humana. $ Agente^2 $ presenta una arquitectura revolucionaria de doble agente. El agente generador sirve como un diseñador de IA autónomo que analiza las tareas y genera agentes RL ejecutables, mientras que el agente objetivo es el agente RL generado automáticamente. El marco descompone el desarrollo de RL en dos etapas distintas: modelado de MDP y optimización algorítmica, que permite una generación de agentes más dirigida y efectiva. Construido en el protocolo de contexto del modelo, $ Agent^2 $ proporciona un marco unificado que estandariza la creación de agentes inteligentes en diversos entornos y algoritmos, al tiempo que incorpora la gestión de capacitación adaptativa y el análisis de retroalimentación inteligente para la mejora continua. Experimentos extensos en una amplia gama de puntos de referencia, incluidos Mujoco, Metadrive, MPE y SMAC, demuestran que $ Agent^2 $ supera constantemente las soluciones diseñadas manualmente en todas las tareas, logrando una mejora del rendimiento hasta un 55% y ganancias sustanciales en promedio. Al habilitar la automatización verdaderamente de circuito cerrado de extremo a extremo, este trabajo establece un nuevo paradigma en el que los agentes inteligentes diseñan y optimizan a otros agentes, marcando un avance fundamental para los sistemas de IA automatizados.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web