BeSafe-Bench: Revelando los riesgos de seguridad conductual de agentes situados en entornos funcionales

Resumen:La rápida evolución de los grandes modelos multimodales (LMM) ha permitido a los agentes realizar tareas físicas y digitales complejas, sin embargo, su implementación como tomadores de decisiones autónomos introduce importantes riesgos de seguridad conductuales no intencionales. Sin embargo, la ausencia de un punto de referencia de seguridad integral sigue siendo un obstáculo importante, ya que las evaluaciones existentes se basan en entornos de baja fidelidad, API simuladas o tareas de alcance limitado. Para abordar esta brecha, presentamos BeSafe-Bench (BSB), un punto de referencia para exponer riesgos de seguridad conductual de agentes situados en entornos funcionales, que cubre cuatro dominios representativos: web, móvil, VLM incorporado y VLA incorporado. Utilizando entornos funcionales, construimos un espacio de instrucción diverso al aumentar las tareas con nueve categorías de riesgos críticos para la seguridad y adoptamos un marco de evaluación híbrido que combina controles basados en reglas con razonamiento de LLM como juez para evaluar los impactos ambientales reales. La evaluación de 13 agentes populares revela una tendencia preocupante: incluso el agente con mejor desempeño completa menos del 40% de las tareas respetando plenamente las restricciones de seguridad, y un buen desempeño de las tareas frecuentemente coincide con violaciones graves de seguridad. Estos hallazgos subrayan la necesidad urgente de mejorar la alineación de la seguridad antes de implementar sistemas agentes en entornos del mundo real.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Recomendación guiada por tiempo de juego dual: exploración de intensidad de interés y caminatas aleatorias multimodales

¿Qué papel deberían desempeñar las compañías de petróleo y gas en la tecnología climática?

¿Por qué los modelos de idiomas grandes pueden hacer un verdadero razonamiento correcto?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido