En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Una barandilla para la preservación de la seguridad: cuando el subespacio sensible a la seguridad se encuentra con el espacio nulo resistente a los daños

Una barandilla para la preservación de la seguridad: cuando el subespacio sensible a la seguridad se encuentra con el espacio nulo resistente a los daños

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM) han logrado un éxito notable en diversas tareas, pero su alineación de seguridad sigue siendo frágil durante la adaptación. Incluso cuando se ajustan datos benignos o con una adaptación de bajo rango, los comportamientos de seguridad previamente entrenados se degradan fácilmente, lo que genera respuestas dañinas en los modelos ajustados. Para abordar este desafío, proponemos GuardSpace, un marco de barandilla para preservar la alineación de seguridad durante el ajuste fino, compuesto por dos componentes clave: un subespacio sensible a la seguridad y un espacio nulo resistente a daños. Primero, descomponemos explícitamente los pesos previamente entrenados en componentes relevantes para la seguridad e irrelevantes para la seguridad utilizando la descomposición de valores singulares precondicionados por covarianza, e inicializamos adaptadores de bajo rango a partir de los irrelevantes para la seguridad, mientras congelamos los componentes relevantes para la seguridad para preservar su mecanismo de seguridad asociado. En segundo lugar, construimos un proyector de espacio nulo que impide que las actualizaciones del adaptador alteren las salidas seguras ante indicaciones dañinas, manteniendo así el comportamiento de rechazo original. Los experimentos con varios modelos previamente entrenados en múltiples tareas posteriores demuestran que GuardSpace logra un rendimiento superior a los métodos existentes. En particular, para Llama-2-7B-Chat optimizado en GSM8K, GuardSpace supera al método de última generación AsFT, reduciendo la puntuación dañina promedio del 14,4% al 3,6%, al tiempo que mejora la precisión del 26,0% al 28,0%.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web