Resumen: Los agentes web basados en modelos de lenguaje grande han demostrado un gran potencial en la automatización de interacciones web a través del razonamiento avanzado y el seguimiento de instrucciones. Si bien la memoria basada en la recuperación derivada de trayectorias históricas permite a estos agentes manejar tareas complejas y de largo plazo, los métodos actuales luchan por generalizarse en sitios web invisibles. Identificamos que este desafío surge de las estructuras de memoria plana que entrelazan la lógica de tareas de alto nivel con detalles de acciones específicas del sitio. Este entrelazamiento induce una falta de coincidencia en el flujo de trabajo en entornos nuevos, donde los contenidos recuperados se combinan con la web actual, lo que lleva a una ejecución lógicamente inconsistente. Para abordar esto, proponemos el Árbol de memoria jerárquica (HMT), un marco estructurado diseñado para desacoplar explícitamente la planificación lógica de la ejecución de acciones. HMT construye una jerarquía de tres niveles a partir de trayectorias sin procesar a través de un proceso de abstracción automatizado: el nivel de Intención asigna diversas instrucciones del usuario a objetivos de tareas estandarizadas; el nivel Etapa define subobjetivos semánticos reutilizables caracterizados por condiciones previas y posteriores observables; y el nivel de Acción almacena patrones de acción combinados con descripciones de elementos semánticos transferibles. Aprovechando esta estructura, desarrollamos un mecanismo de inferencia consciente del escenario que comprende un Planificador y un Actor. Al validar explícitamente las condiciones previas, el Planificador alinea el estado actual con el subobjetivo lógico correcto para evitar discrepancias en el flujo de trabajo, mientras que el Actor fundamenta las acciones haciendo coincidir las descripciones semánticas almacenadas con la página de destino. Los resultados experimentales en Mind2Web y WebArena muestran que HMT supera significativamente a los métodos de memoria plana, particularmente en escenarios entre sitios web y entre dominios, lo que destaca la necesidad de una memoria estructurada para una generalización sólida de los agentes web.
Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original
