Resumen:Aunque los modelos de lenguajes grandes (LLM) han avanzado rápidamente, la automatización sólida de flujos de trabajo de software complejos sigue siendo un problema abierto. En entornos de largo plazo, los agentes frecuentemente sufren errores en cascada y estocasticidad ambiental; un solo paso en falso en una interfaz dinámica puede llevar al fracaso de la tarea, lo que resulta en alucinaciones o prueba y error. Este artículo presenta $textit{Environment Maps}$: una representación persistente e independiente del agente que mitiga estas fallas al consolidar evidencia heterogénea, como grabaciones de pantalla y seguimientos de ejecución, en un gráfico estructurado. La representación consta de cuatro componentes principales: (1) Contextos (ubicaciones abstractas), (2) Acciones (posibilidades parametrizadas), (3) Flujos de trabajo (trayectorias observadas) y (4) Conocimiento tácito (definiciones de dominio y procedimientos reutilizables). Evaluamos este marco en el punto de referencia WebArena en cinco dominios. Los agentes equipados con mapas ambientales logran una tasa de éxito del 28,2 %, casi duplicando el rendimiento de las líneas de base limitadas al contexto vinculado a la sesión (14,2 %) y superando a los agentes que tienen acceso a los datos de trayectoria sin procesar utilizados para generar los mapas ambientales (23,3 %). Al proporcionar una interfaz estructurada entre el modelo y el entorno, Environment Maps establece una base persistente para la planificación a largo plazo que es interpretable por humanos, editable y refinable incrementalmente.
Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original
