En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Safemobile: detección de jailbreak a nivel de cadena y evaluación automatizada para agentes móviles multimodales

Safemobile: detección de jailbreak a nivel de cadena y evaluación automatizada para agentes móviles multimodales

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: con la amplia aplicación de modelos de cimientos multimodales en sistemas de agentes inteligentes, escenarios como el control del dispositivo móvil, la interacción inteligente del asistente y la ejecución de tareas multimodales dependen gradualmente de agentes tan grandes basados ​​en modelos. Sin embargo, los sistemas relacionados también están cada vez más expuestos a posibles riesgos de jailbreak. Los atacantes pueden inducir a los agentes a evitar las limitaciones de comportamiento originales a través de entradas específicas, y luego desencadenar ciertas operaciones arriesgadas y sensibles, como modificar la configuración, ejecutar comandos no autorizados o suplantando identidades de usuarios, lo que trae nuevos desafíos a la seguridad del sistema. Las medidas de seguridad existentes para agentes inteligentes todavía tienen limitaciones cuando se enfrentan a interacciones complejas, especialmente en la detección de comportamientos potencialmente riesgosos en múltiples rondas de conversaciones o secuencias de tareas. Además, actualmente falta una metodología automatizada eficiente y consistente para ayudar a evaluar y determinar el impacto de tales riesgos. Este trabajo explora los problemas de seguridad que rodean a los agentes multimodales móviles, intentan construir un mecanismo de discriminación de riesgos mediante la incorporación de información de secuencia conductual y diseña un esquema de evaluación asistida automatizada basado en un modelo de lenguaje grande. A través de la validación preliminar en varias tareas de alto riesgo representativas, los resultados muestran que el método puede mejorar el reconocimiento de comportamientos riesgosos hasta cierto punto y ayudar a reducir la probabilidad de que los agentes estén jailbroken. Esperamos que este estudio pueda proporcionar algunas referencias valiosas para el modelado de riesgos de seguridad y la protección de los sistemas de agentes inteligentes multimodales.

Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web