En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Evaluación de seguridad multimodal en simulaciones sociales de agentes generativos

Evaluación de seguridad multimodal en simulaciones sociales de agentes generativos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:¿Se puede confiar en los agentes generativos en entornos multimodales? A pesar de los avances en los grandes modelos de lenguaje y visión-lenguaje que permiten a los agentes actuar de forma autónoma y perseguir objetivos en entornos ricos, su capacidad para razonar sobre la seguridad, la coherencia y la confianza entre modalidades sigue siendo limitada. Introducimos un marco de simulación reproducible para evaluar agentes en tres dimensiones: (1) mejora de la seguridad a lo largo del tiempo, incluidas revisiones iterativas del plan en escenarios textuales visuales; (2) detección de actividades inseguras en múltiples categorías de situaciones sociales; y (3) dinámica social, medida como recuento de interacciones y índices de aceptación de los intercambios sociales. Los agentes están equipados con memoria en capas, planificación dinámica, percepción multimodal y están equipados con SocialMetrics, un conjunto de métricas estructurales y de comportamiento que cuantifica las revisiones de planes, las conversiones de inseguro a seguro y la difusión de información a través de redes. Los experimentos muestran que, si bien los agentes pueden detectar contradicciones multimodales directas, a menudo no logran alinear las revisiones locales con la seguridad global, alcanzando solo una tasa de éxito del 55 por ciento en la corrección de planes inseguros. En ocho ejecuciones de simulación con tres modelos (Claude, GPT-4o mini y Qwen-VL), cinco agentes lograron tasas de conversión promedio de inseguro a seguro del 75, 55 y 58 por ciento, respectivamente. El rendimiento general osciló entre el 20 por ciento en escenarios de múltiples riesgos con GPT-4o mini y el 98 por ciento en contextos localizados como fuego/calor con Claude. En particular, el 45 por ciento de las acciones inseguras fueron aceptadas cuando se combinaron con imágenes engañosas, lo que muestra una fuerte tendencia a confiar demasiado en las imágenes. Estos hallazgos exponen limitaciones críticas en las arquitecturas actuales y proporcionan una plataforma reproducible para estudiar la seguridad, la coherencia y la dinámica social multimodal.

Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web