Hacia agentes que cumplen con las políticas: aprendizaje de barreras de seguridad eficientes para la detección de infracciones de políticas

Resumen: Los agentes web autónomos deben operar bajo políticas impuestas externamente o especificadas por el ser humano mientras se generan trayectorias de oraciones largas. Sin embargo, poco trabajo ha examinado si estas trayectorias cumplen con tales políticas, o si las violaciones de políticas persisten en diferentes contextos, como dominios (por ejemplo, sitios web de compras o codificaciones) y subdominios (por ejemplo, búsqueda de productos y gestión de pedidos en compras). Para abordar esta brecha, presentamos PolicyGuardBench, un punto de referencia de aproximadamente 60k ejemplos para detectar violaciones de políticas en las trayectorias de los agentes. De diversas ejecuciones de agentes, generamos un amplio conjunto de políticas y creamos pares de subdominios subdominios y cross con etiquetas de violación. Además de la evaluación de trayectoria completa, PolicyGuardBench también incluye una tarea de detección de violación basada en prefijos donde los modelos deben anticipar violaciones de políticas de los prefijos de trayectoria truncada en lugar de secuencias completas. Usando este conjunto de datos, capacitamos a PolicyGuard-4B, un modelo de barandilla ligera que ofrece una fuerte precisión de detección en todas las tareas mientras mantiene la inferencia eficiente. En particular, PolicyGuard-4B se generaliza en todos los dominios y conserva una alta precisión en entornos invisibles. Juntos, PolicyGuardBench y PolicyGuard-4B proporcionan el primer marco integral para estudiar el cumplimiento de las políticas en las trayectorias de los agentes web, y muestran que las barandillas precisas y generalizables son factibles a pequeñas escalas.

Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Descodificación especulativa de refuerzo para una clasificación rápida

Un sesgo perceptivo de la capacidad de argumentación lógica de la IA en la escritura

Generación de recuperación de la industria: un estudio de entrevista sobre casos de uso, requisitos, desafíos y evaluación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido