Un ajuste estrecho erosiona la alineación de seguridad en los agentes de visión y lenguaje

Resumen: Los agentes multimodales de por vida deben adaptarse continuamente a nuevas tareas mediante la capacitación posterior, pero esto crea una tensión fundamental entre adquirir capacidades y preservar la alineación de seguridad. Demostramos que el ajuste de modelos alineados de visión y lenguaje en conjuntos de datos dañinos de dominio limitado induce una desalineación emergente grave que se generaliza ampliamente en tareas y modalidades no relacionadas. A través de experimentos en Gemma3-4B, mostramos que la desalineación aumenta monótonamente con el rango LoRA, y que la evaluación multimodal revela una desalineación sustancialmente mayor ($70,71 pm 1,22$ a $r=128$) que la evaluación de solo texto ($41,19 pm 2,51$), lo que sugiere que los puntos de referencia de seguridad unimodales pueden subestimar la degradación de la alineación en los modelos de visión-lenguaje. Fundamentalmente, incluso un 10% de datos dañinos en la mezcla de entrenamiento induce una degradación sustancial de la alineación. El análisis geométrico revela que los comportamientos dañinos ocupan un subespacio notablemente de baja dimensión, con la mayor parte de la información de desalineación capturada en 10 componentes principales. Para mitigar la desalineación, evaluamos dos estrategias: un ajuste fino benigno y una dirección basada en activación. Si bien ambos enfoques reducen sustancialmente la desalineación, ninguno elimina por completo los comportamientos dañinos aprendidos. Nuestros hallazgos resaltan la necesidad de marcos sólidos de aprendizaje continuo, ya que los paradigmas actuales posteriores a la capacitación pueden no preservar suficientemente la alineación en los entornos posteriores a la implementación.

Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Este radar cuántico podría obtener imágenes de objetos enterrados

Mejora de la racionalidad en el proceso de razonamiento de los modelos de lenguaje a través del juego autoestimonado

Del Mapa a la Evidencia: La Apesta Geoespacial Digital de Esg en el BID

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido