En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->El recordatorio de seguridad: un indicador suave para reactivar la conciencia de seguridad retrasada en los modelos de lenguaje de la visión

El recordatorio de seguridad: un indicador suave para reactivar la conciencia de seguridad retrasada en los modelos de lenguaje de la visión

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: A medida que los modelos en idioma de visión (VLMS) demuestran capacidades crecientes en aplicaciones del mundo real, como la generación de código y la asistencia de chatbot, asegurando que su seguridad se haya vuelto primordial. A diferencia de los modelos de lenguaje grande tradicional (LLM), los VLM enfrentan vulnerabilidades únicas debido a su naturaleza multimodal, lo que permite a los adversarios modificar las entradas visuales o textuales para evitar las barandillas de seguridad y activar la generación de contenido dañino. A través del análisis sistemático del comportamiento de VLM bajo ataque, identificamos un fenómeno novedoso denominado “ conciencia de seguridad retrasada ”. Específicamente, observamos que los VLM alineados con seguridad inicialmente pueden verse comprometidos a producir contenido dañino, pero eventualmente reconocer los riesgos asociados e intentar autocorregir. Este patrón sugiere que los VLM conservan su conciencia de seguridad subyacente pero experimentan un retraso temporal en su activación. Sobre la base de esta idea, planteamos la hipótesis de que la conciencia de seguridad de VLMS se puede reactivar de manera proactiva a través de indicaciones cuidadosamente diseñadas. Con este fin, presentamos “ el recordatorio de seguridad ”, un enfoque de ajuste de inmediato suave que optimiza los tokens rápidos aprendices, que se inyectan periódicamente durante el proceso de generación de texto para mejorar la conciencia de seguridad, evitando efectivamente la generación de contenido dañino. Además, nuestro recordatorio de seguridad solo se activa cuando se detecta contenido dañino, dejando las conversaciones normales no afectadas y preservando el rendimiento del modelo en tareas benignas. A través de una evaluación integral en tres puntos de referencia de seguridad establecidos y un ataques adversos, demostramos que nuestro enfoque reduce significativamente las tasas de éxito de los ataques mientras se mantiene la utilidad del modelo, ofreciendo una solución práctica para implementar VLMS más seguras en aplicaciones del mundo real.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web