Co-EPG: un marco para la coevolución de la planificación y la puesta a tierra en agentes GUI autónomos

Resumen: La automatización de tareas de la interfaz gráfica de usuario (GUI) constituye una frontera crítica en la investigación de la inteligencia artificial. Si bien los agentes GUI eficaces integran sinérgicamente capacidades de planificación y conexión a tierra, las metodologías actuales presentan dos limitaciones fundamentales: (1) explotación insuficiente de las sinergias entre modelos y (2) dependencia excesiva de la generación de datos sintéticos sin una utilización suficiente. Para abordar estos desafíos, proponemos Co-EPG, un marco de capacitación autoiterativo para la coevolución de la planificación y la puesta a tierra. Co-EPG establece un ciclo iterativo de retroalimentación positiva: a través de este ciclo, el modelo de planificación explora estrategias superiores bajo una guía de recompensa basada en la conexión a tierra a través de la optimización de políticas relativas al grupo (GRPO), generando diversos datos para optimizar el modelo de conexión a tierra. Al mismo tiempo, el modelo Grounding optimizado proporciona recompensas más efectivas para la posterior capacitación GRPO del modelo de planificación, fomentando la mejora continua. Por lo tanto, Co-EPG permite la mejora iterativa de las capacidades de los agentes mediante la optimización del juego automático y la destilación de datos de entrenamiento. En los puntos de referencia Multimodal-Mind2Web y AndroidControl, nuestro marco supera a los métodos de última generación existentes después de solo tres iteraciones sin requerir datos externos. El agente mejora constantemente con cada iteración, demostrando sólidas capacidades de mejora personal. Este trabajo establece un paradigma de capacitación novedoso para agentes GUI, pasando de una optimización aislada a un enfoque de coevolución integrado y autónomo.

Publicado originalmente en export.arxiv.org el 17 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Clicksight: Interpretación de Clickstreams de los estudiantes para revelar ideas sobre estrategias de aprendizaje a través de LLMS

Modelos causales de topos

El efecto de la representación estatal en el comportamiento del agente de LLM en los juegos de enrutamiento dinámico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido