Resumen: Los agentes web autónomos deben operar bajo políticas impuestas externamente o especificadas por el ser humano mientras se generan trayectorias de oraciones largas. Sin embargo, poco trabajo ha examinado si estas trayectorias cumplen con tales políticas, o si las violaciones de políticas persisten en diferentes contextos, como dominios (por ejemplo, sitios web de compras o codificaciones) y subdominios (por ejemplo, búsqueda de productos y gestión de pedidos en compras). Para abordar esta brecha, presentamos PolicyGuardBench, un punto de referencia de aproximadamente 60k ejemplos para detectar violaciones de políticas en las trayectorias de los agentes. De diversas ejecuciones de agentes, generamos un amplio conjunto de políticas y creamos pares de subdominios subdominios y cross con etiquetas de violación. Además de la evaluación de trayectoria completa, PolicyGuardBench también incluye una tarea de detección de violación basada en prefijos donde los modelos deben anticipar violaciones de políticas de los prefijos de trayectoria truncada en lugar de secuencias completas. Usando este conjunto de datos, capacitamos a PolicyGuard-4B, un modelo de barandilla ligera que ofrece una fuerte precisión de detección en todas las tareas mientras mantiene la inferencia eficiente. En particular, PolicyGuard-4B se generaliza en todos los dominios y conserva una alta precisión en entornos invisibles. Juntos, PolicyGuardBench y PolicyGuard-4B proporcionan el primer marco integral para estudiar el cumplimiento de las políticas en las trayectorias de los agentes web, y muestran que las barandillas precisas y generalizables son factibles a pequeñas escalas.
Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver fuente original
