En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ActionEngine: de agentes GUI reactivos a programáticos a través de la memoria de la máquina de estado

ActionEngine: de agentes GUI reactivos a programáticos a través de la memoria de la máquina de estado

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Proponemos ActionEngine, un marco sin capacitación que pasa de la ejecución reactiva a la planificación programática a través de una novedosa arquitectura de dos agentes: un agente de rastreo que construye una memoria de máquina de estado actualizable de las GUI a través de la exploración fuera de línea, y un agente de ejecución que aprovecha esta memoria para sintetizar programas Python completos y ejecutables para la ejecución de tareas en línea.
Para garantizar la solidez frente a las interfaces en evolución, las fallas de ejecución desencadenan un retroceso de conexión a tierra basado en visión que repara la acción fallida y actualiza la memoria.
Este diseño mejora drásticamente tanto la eficiencia como la precisión: en las tareas de Reddit del punto de referencia WebArena, nuestro agente logra un 95 % de éxito en la tarea con un promedio de una sola llamada de LLM, en comparación con el 66 % para la base de referencia más sólida solo de visión, al tiempo que reduce el costo en 11,8 veces y la latencia de extremo a extremo en 2 veces.
Juntos, estos componentes generan una interacción GUI escalable y confiable al combinar planificación programática global, plantillas de acción validadas por rastreadores y ejecución a nivel de nodo con validación y reparación localizadas.

Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web