En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Co-EPG: un marco para la coevolución de la planificación y la puesta a tierra en agentes GUI autónomos

Co-EPG: un marco para la coevolución de la planificación y la puesta a tierra en agentes GUI autónomos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La automatización de tareas de la interfaz gráfica de usuario (GUI) constituye una frontera crítica en la investigación de la inteligencia artificial. Si bien los agentes GUI eficaces integran sinérgicamente capacidades de planificación y conexión a tierra, las metodologías actuales presentan dos limitaciones fundamentales: (1) explotación insuficiente de las sinergias entre modelos y (2) dependencia excesiva de la generación de datos sintéticos sin una utilización suficiente. Para abordar estos desafíos, proponemos Co-EPG, un marco de capacitación autoiterativo para la coevolución de la planificación y la puesta a tierra. Co-EPG establece un ciclo iterativo de retroalimentación positiva: a través de este ciclo, el modelo de planificación explora estrategias superiores bajo una guía de recompensa basada en la conexión a tierra a través de la optimización de políticas relativas al grupo (GRPO), generando diversos datos para optimizar el modelo de conexión a tierra. Al mismo tiempo, el modelo Grounding optimizado proporciona recompensas más efectivas para la posterior capacitación GRPO del modelo de planificación, fomentando la mejora continua. Por lo tanto, Co-EPG permite la mejora iterativa de las capacidades de los agentes mediante la optimización del juego automático y la destilación de datos de entrenamiento. En los puntos de referencia Multimodal-Mind2Web y AndroidControl, nuestro marco supera a los métodos de última generación existentes después de solo tres iteraciones sin requerir datos externos. El agente mejora constantemente con cada iteración, demostrando sólidas capacidades de mejora personal. Este trabajo establece un paradigma de capacitación novedoso para agentes GUI, pasando de una optimización aislada a un enfoque de coevolución integrado y autónomo.

Publicado originalmente en export.arxiv.org el 17 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web