En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Arms: agente adaptativo de equipo rojo contra modelos multimodales con ataques con plug-and-play

Arms: agente adaptativo de equipo rojo contra modelos multimodales con ataques con plug-and-play

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: A medida que los modelos en idioma de visión (VLMS) ganan prominencia, sus interfaces multimodales también introducen nuevas vulnerabilidades de seguridad, lo que hace que la evaluación de seguridad sea desafiante y crítica. Los esfuerzos existentes en el equipo rojo están restringidos a un conjunto estrecho de patrones adversos o dependen en gran medida de la ingeniería manual, sin exploración escalable de las vulnerabilidades emergentes de VLM del mundo real. Para cerrar esta brecha, proponemos Arms, un agente adaptativo de equipo rojo que realiza sistemáticamente evaluaciones de riesgos integrales para VLM. Dada un comportamiento dañino objetivo o una definición de riesgo, Arms optimiza automáticamente las diversas estrategias de equipo rojo con orquestación múltiple mejorada mejorada de razonamiento, para obtener efectivamente los resultados dañinos de las VLM de objetivos. Proponemos 11 nuevas estrategias de ataque multimodal, que cubren diversos patrones adversos de VLM (por ejemplo, secuestro de razonamiento, encubrimiento contextual) e integran 17 algoritmos de equipo rojo en armas a través del protocolo de contexto del modelo (MCP). Para equilibrar la diversidad y la efectividad del ataque, diseñamos una memoria en capas con un algoritmo de exploración de ataque de greedia Epsilon. Experimentos extensos en puntos de referencia basados ​​en instancias y políticas muestran que las armas alcanzan las tasas de éxito del ataque SOTA, que excede las líneas de base en un promedio de 52.1% y superan el 90% en Claude-4-Sonnet. Mostramos que la diversidad de las instancias de equipo rojo generadas por los brazos es significativamente mayor, revelando vulnerabilidades emergentes en VLMS. Aprovechando los brazos, construimos el banco de armas, un conjunto de datos de seguridad multimodal a gran escala que comprende más de 30k instancias de equipo rojo que abarcan 51 diversas categorías de riesgos, basadas en amenazas multimodales del mundo real y riesgos regulatorios. El ajuste de seguridad con el banco de armas mejora sustancialmente la robustez de los VLM al tiempo que preserva su utilidad general, proporcionando una guía procesable para mejorar la alineación de seguridad multimodal contra las amenazas emergentes.

Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web