En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Reimaginando la alineación de seguridad con una imagen

Reimaginando la alineación de seguridad con una imagen

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM) sobresalen en diversas aplicaciones, pero enfrentan desafíos duales: generar contenido dañino bajo ataques de jailbreak y rechazar consultas benignas debido a mecanismos de seguridad rígidos. Estas cuestiones se complican aún más por la necesidad de dar cabida a diferentes sistemas de valores y alinearse con precisión con determinadas preferencias de seguridad. Además, los métodos tradicionales como SFT y RLHF carecen de esta capacidad debido a sus costosos requisitos de ajuste de parámetros y su incapacidad para admitir múltiples sistemas de valores dentro de un solo modelo. Estos problemas son más obvios en los modelos de lenguajes grandes multimodales (MLLM), especialmente en términos de un mayor rechazo excesivo en tareas intermodales y nuevos riesgos de seguridad que surgen de las superficies de ataque ampliadas. Proponemos Magic Image, un marco de avisos visuales impulsado por la optimización que mejora la seguridad y reduce el rechazo excesivo. Al optimizar las indicaciones de imágenes utilizando muestras dañinas/benignas, nuestro método permite que un único modelo se adapte a diferentes sistemas de valores y se alinee mejor con determinadas preferencias de seguridad sin actualizaciones de parámetros. Los experimentos demuestran un equilibrio mejorado entre seguridad y eficacia en diversos conjuntos de datos y al mismo tiempo preservan el rendimiento del modelo, ofreciendo una solución práctica para la alineación de seguridad MLLM implementable.

Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web