Resumen: A medida que los agentes autónomos se vuelven expertos en comprender e interactuar con entornos gráficos de la interfaz de usuario (GUI), está surgiendo una nueva era de ejecución de tareas automatizadas. Estudios recientes han demostrado que el aprendizaje de refuerzo (RL) puede mejorar efectivamente el rendimiento de los agentes en entornos de GUI interactivos dinámicos. Sin embargo, estos métodos enfrentan dos limitaciones clave: (1) pasan por alto la variación significativa en la dificultad en diferentes tareas de GUI mediante el tratamiento de todos los datos de capacitación como un conjunto uniforme, que obstaculiza la capacidad del agente para adaptar su proceso de aprendizaje; y (2) la mayoría de los enfoques colapsan los matices específicos de la tarea en una única recompensa gruesa, dejando al agente con una señal uniforme que produce actualizaciones de políticas ineficientes. Para abordar estas limitaciones, proponemos Craft-GUI, un marco de aprendizaje curricular basado en la optimización de políticas relativas del grupo (GRPO) que explica explícitamente la dificultad variable en todas las trayectorias. Para habilitar una mayor optimización de políticas de grano, diseñamos una función de recompensa que combina señales simples basadas en reglas con una evaluación juzgada con el modelo, proporcionando comentarios más ricos y matizados durante la capacitación. Los resultados experimentales demuestran que nuestro método logra mejoras significativas sobre los enfoques de vanguardia anteriores, superando los superan en un 5,6% en los puntos de referencia público de control de Android y el 10,3% en nuestros puntos de referencia internos en línea, respectivamente. Estos hallazgos validan empíricamente la efectividad de integrar el aprendizaje de refuerzo con el aprendizaje curricular en las tareas de interacción GUI.
Publicado Originalme en export.arxiv.org El 17 de agosto de 2025.
Ver Fuente Original
