Resumen: Proponemos ActionEngine, un marco sin capacitación que pasa de la ejecución reactiva a la planificación programática a través de una novedosa arquitectura de dos agentes: un agente de rastreo que construye una memoria de máquina de estado actualizable de las GUI a través de la exploración fuera de línea, y un agente de ejecución que aprovecha esta memoria para sintetizar programas Python completos y ejecutables para la ejecución de tareas en línea.
Para garantizar la solidez frente a las interfaces en evolución, las fallas de ejecución desencadenan un retroceso de conexión a tierra basado en visión que repara la acción fallida y actualiza la memoria.
Este diseño mejora drásticamente tanto la eficiencia como la precisión: en las tareas de Reddit del punto de referencia WebArena, nuestro agente logra un 95 % de éxito en la tarea con un promedio de una sola llamada de LLM, en comparación con el 66 % para la base de referencia más sólida solo de visión, al tiempo que reduce el costo en 11,8 veces y la latencia de extremo a extremo en 2 veces.
Juntos, estos componentes generan una interacción GUI escalable y confiable al combinar planificación programática global, plantillas de acción validadas por rastreadores y ejecución a nivel de nodo con validación y reparación localizadas.
Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original
