En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->BeSafe-Bench: Revelando los riesgos de seguridad conductual de agentes situados en entornos funcionales

BeSafe-Bench: Revelando los riesgos de seguridad conductual de agentes situados en entornos funcionales

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La rápida evolución de los grandes modelos multimodales (LMM) ha permitido a los agentes realizar tareas físicas y digitales complejas, sin embargo, su implementación como tomadores de decisiones autónomos introduce importantes riesgos de seguridad conductuales no intencionales. Sin embargo, la ausencia de un punto de referencia de seguridad integral sigue siendo un obstáculo importante, ya que las evaluaciones existentes se basan en entornos de baja fidelidad, API simuladas o tareas de alcance limitado. Para abordar esta brecha, presentamos BeSafe-Bench (BSB), un punto de referencia para exponer riesgos de seguridad conductual de agentes situados en entornos funcionales, que cubre cuatro dominios representativos: web, móvil, VLM incorporado y VLA incorporado. Utilizando entornos funcionales, construimos un espacio de instrucción diverso al aumentar las tareas con nueve categorías de riesgos críticos para la seguridad y adoptamos un marco de evaluación híbrido que combina controles basados ​​en reglas con razonamiento de LLM como juez para evaluar los impactos ambientales reales. La evaluación de 13 agentes populares revela una tendencia preocupante: incluso el agente con mejor desempeño completa menos del 40% de las tareas respetando plenamente las restricciones de seguridad, y un buen desempeño de las tareas frecuentemente coincide con violaciones graves de seguridad. Estos hallazgos subrayan la necesidad urgente de mejorar la alineación de la seguridad antes de implementar sistemas agentes en entornos del mundo real.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web