En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Hacia agentes que cumplen con las políticas: aprendizaje de barreras de seguridad eficientes para la detección de infracciones de políticas

Hacia agentes que cumplen con las políticas: aprendizaje de barreras de seguridad eficientes para la detección de infracciones de políticas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes web autónomos deben operar bajo políticas impuestas externamente o especificadas por el ser humano mientras se generan trayectorias de oraciones largas. Sin embargo, poco trabajo ha examinado si estas trayectorias cumplen con tales políticas, o si las violaciones de políticas persisten en diferentes contextos, como dominios (por ejemplo, sitios web de compras o codificaciones) y subdominios (por ejemplo, búsqueda de productos y gestión de pedidos en compras). Para abordar esta brecha, presentamos PolicyGuardBench, un punto de referencia de aproximadamente 60k ejemplos para detectar violaciones de políticas en las trayectorias de los agentes. De diversas ejecuciones de agentes, generamos un amplio conjunto de políticas y creamos pares de subdominios subdominios y cross con etiquetas de violación. Además de la evaluación de trayectoria completa, PolicyGuardBench también incluye una tarea de detección de violación basada en prefijos donde los modelos deben anticipar violaciones de políticas de los prefijos de trayectoria truncada en lugar de secuencias completas. Usando este conjunto de datos, capacitamos a PolicyGuard-4B, un modelo de barandilla ligera que ofrece una fuerte precisión de detección en todas las tareas mientras mantiene la inferencia eficiente. En particular, PolicyGuard-4B se generaliza en todos los dominios y conserva una alta precisión en entornos invisibles. Juntos, PolicyGuardBench y PolicyGuard-4B proporcionan el primer marco integral para estudiar el cumplimiento de las políticas en las trayectorias de los agentes web, y muestran que las barandillas precisas y generalizables son factibles a pequeñas escalas.

Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web