En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Un ajuste estrecho erosiona la alineación de seguridad en los agentes de visión y lenguaje

Un ajuste estrecho erosiona la alineación de seguridad en los agentes de visión y lenguaje

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes multimodales de por vida deben adaptarse continuamente a nuevas tareas mediante la capacitación posterior, pero esto crea una tensión fundamental entre adquirir capacidades y preservar la alineación de seguridad. Demostramos que el ajuste de modelos alineados de visión y lenguaje en conjuntos de datos dañinos de dominio limitado induce una desalineación emergente grave que se generaliza ampliamente en tareas y modalidades no relacionadas. A través de experimentos en Gemma3-4B, mostramos que la desalineación aumenta monótonamente con el rango LoRA, y que la evaluación multimodal revela una desalineación sustancialmente mayor ($70,71 pm 1,22$ a $r=128$) que la evaluación de solo texto ($41,19 pm 2,51$), lo que sugiere que los puntos de referencia de seguridad unimodales pueden subestimar la degradación de la alineación en los modelos de visión-lenguaje. Fundamentalmente, incluso un 10% de datos dañinos en la mezcla de entrenamiento induce una degradación sustancial de la alineación. El análisis geométrico revela que los comportamientos dañinos ocupan un subespacio notablemente de baja dimensión, con la mayor parte de la información de desalineación capturada en 10 componentes principales. Para mitigar la desalineación, evaluamos dos estrategias: un ajuste fino benigno y una dirección basada en activación. Si bien ambos enfoques reducen sustancialmente la desalineación, ninguno elimina por completo los comportamientos dañinos aprendidos. Nuestros hallazgos resaltan la necesidad de marcos sólidos de aprendizaje continuo, ya que los paradigmas actuales posteriores a la capacitación pueden no preservar suficientemente la alineación en los entornos posteriores a la implementación.

Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web