En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Bootstrapping LLM robustez para la seguridad de VLM mediante la reducción de la brecha de modalidad previa

Bootstrapping LLM robustez para la seguridad de VLM mediante la reducción de la brecha de modalidad previa

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Asegurar que los modelos en idioma de visión (VLMS) generen salidas seguras es crucial para su implementación confiable. Sin embargo, los LVLM sufren de una drástica degradación de seguridad en comparación con su esqueleto LLM. Incluso las imágenes en blanco o irrelevantes pueden desencadenar LVLM para generar respuestas dañinas a las indicaciones que de otro modo serían rechazadas en contextos de solo texto. La brecha de modalidad entre las representaciones de imagen y texto se ha hipotetizado recientemente para contribuir a la degradación de seguridad de los LVLM. Sin embargo, si y cómo la cantidad de brecha de modalidad afecta la seguridad de LVLMS. En este trabajo, mostramos que la cantidad de brecha de modalidad está altamente inversamente correlacionada con la seguridad de VLMS. Luego, mostramos que esta brecha de modalidad se introduce durante los LVLM previos al año y persiste a través del ajuste fino. Inspirados en esta observación, proponemos una regularización para reducir la brecha de modalidad durante la pretruación. Nuestros extensos experimentos en Llava V1.5, ShareGPT4V y Minigpt-4 muestran que nuestro método mejora sustancialmente la alineación de seguridad de los LVLM, reduciendo la tasa insegura hasta en un 16,3% sin comprometer el rendimiento, y puede aumentar aún más los defensas existentes hasta en un 18,2%.

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web