Resumen: con la amplia aplicación de modelos de cimientos multimodales en sistemas de agentes inteligentes, escenarios como el control del dispositivo móvil, la interacción inteligente del asistente y la ejecución de tareas multimodales dependen gradualmente de agentes tan grandes basados en modelos. Sin embargo, los sistemas relacionados también están cada vez más expuestos a posibles riesgos de jailbreak. Los atacantes pueden inducir a los agentes a evitar las limitaciones de comportamiento originales a través de entradas específicas, y luego desencadenar ciertas operaciones arriesgadas y sensibles, como modificar la configuración, ejecutar comandos no autorizados o suplantando identidades de usuarios, lo que trae nuevos desafíos a la seguridad del sistema. Las medidas de seguridad existentes para agentes inteligentes todavía tienen limitaciones cuando se enfrentan a interacciones complejas, especialmente en la detección de comportamientos potencialmente riesgosos en múltiples rondas de conversaciones o secuencias de tareas. Además, actualmente falta una metodología automatizada eficiente y consistente para ayudar a evaluar y determinar el impacto de tales riesgos. Este trabajo explora los problemas de seguridad que rodean a los agentes multimodales móviles, intentan construir un mecanismo de discriminación de riesgos mediante la incorporación de información de secuencia conductual y diseña un esquema de evaluación asistida automatizada basado en un modelo de lenguaje grande. A través de la validación preliminar en varias tareas de alto riesgo representativas, los resultados muestran que el método puede mejorar el reconocimiento de comportamientos riesgosos hasta cierto punto y ayudar a reducir la probabilidad de que los agentes estén jailbroken. Esperamos que este estudio pueda proporcionar algunas referencias valiosas para el modelado de riesgos de seguridad y la protección de los sistemas de agentes inteligentes multimodales.
Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original