Reimaginando la alineación de seguridad con una imagen

Resumen: Los modelos de lenguajes grandes (LLM) sobresalen en diversas aplicaciones, pero enfrentan desafíos duales: generar contenido dañino bajo ataques de jailbreak y rechazar consultas benignas debido a mecanismos de seguridad rígidos. Estas cuestiones se complican aún más por la necesidad de dar cabida a diferentes sistemas de valores y alinearse con precisión con determinadas preferencias de seguridad. Además, los métodos tradicionales como SFT y RLHF carecen de esta capacidad debido a sus costosos requisitos de ajuste de parámetros y su incapacidad para admitir múltiples sistemas de valores dentro de un solo modelo. Estos problemas son más obvios en los modelos de lenguajes grandes multimodales (MLLM), especialmente en términos de un mayor rechazo excesivo en tareas intermodales y nuevos riesgos de seguridad que surgen de las superficies de ataque ampliadas. Proponemos Magic Image, un marco de avisos visuales impulsado por la optimización que mejora la seguridad y reduce el rechazo excesivo. Al optimizar las indicaciones de imágenes utilizando muestras dañinas/benignas, nuestro método permite que un único modelo se adapte a diferentes sistemas de valores y se alinee mejor con determinadas preferencias de seguridad sin actualizaciones de parámetros. Los experimentos demuestran un equilibrio mejorado entre seguridad y eficacia en diversos conjuntos de datos y al mismo tiempo preservan el rendimiento del modelo, ofreciendo una solución práctica para la alineación de seguridad MLLM implementable.

Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Verificación en el momento de la prueba mediante transporte óptimo: cobertura, ROC y suboptimidad

ContraGen: un marco de generación de agentes múltiples para la detección de contradicciones empresariales

Atención de un beso: explorando mapas de atención en la difusión de video para xaixarts

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido