Capacitación de programadores de alto nivel con aprendizaje reforzado con retroalimentación de ejecución para la automatización de GUI a largo plazo

Resumen:El rápido desarrollo del modelo de lenguaje-visión (VLM) ha promovido en gran medida la investigación del agente GUI. Sin embargo, los agentes de GUI todavía enfrentan desafíos importantes en el manejo de tareas a largo plazo. En primer lugar, los modelos de agente único luchan por equilibrar las capacidades de alto nivel y la capacidad de ejecución de bajo nivel, enfrentando problemas frecuentes de acoplamiento de responsabilidades y conflictos de capacidades. En segundo lugar, los agentes carecen de conciencia del estado de la tarea, lo que lleva a una pérdida de progreso en tareas de largo plazo. Para abordar estos desafíos, proponemos un algoritmo de aprendizaje por refuerzo de retroalimentación de ejecución por etapas. A diferencia de entrenar un modelo de política unificado, nos enfocamos en entrenar modelos de programación de alto nivel. En concreto, proponemos y formamos dos agentes: un Coordinador, responsable de la planificación estratégica y descomposición de tareas; y un State Tracker, responsable de la compresión del contexto y la gestión de la información para mantener el estado y la coherencia de la tarea. En base a esto, creamos el marco multiagente Coordinador-Ejecutor-Rastreador de Estado (CES), que se puede integrar con cualquier modelo de Ejecutor de bajo nivel, ayudando al Ejecutor a resolver tareas de largo plazo a través de la programación de tareas y la gestión del estado. Los experimentos sobre puntos de referencia de tareas a largo plazo demuestran que CES mejora significativamente las capacidades de planificación y gestión estatal del sistema. Además, el análisis confirma que nuestro módulo de programación de alto nivel capacitado es un módulo plug-and-play generalizable que mejora significativamente las capacidades a largo plazo de varios Ejecutores. El código puede estar disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Hacia el diseño de ingeniería autónomo: un marco multiagente guiado por el conocimiento

ExpertAgent: Mejora de la educación personalizada mediante planificación dinámica y razonamiento de cadena larga aumentado con recuperación

Preferencia de la población PREPRESIONAL Aprendizaje de la retroalimentación humana: un enfoque axiomático

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido