Una barandilla para la preservación de la seguridad: cuando el subespacio sensible a la seguridad se encuentra con el espacio nulo resistente a los daños

Resumen: Los modelos de lenguajes grandes (LLM) han logrado un éxito notable en diversas tareas, pero su alineación de seguridad sigue siendo frágil durante la adaptación. Incluso cuando se ajustan datos benignos o con una adaptación de bajo rango, los comportamientos de seguridad previamente entrenados se degradan fácilmente, lo que genera respuestas dañinas en los modelos ajustados. Para abordar este desafío, proponemos GuardSpace, un marco de barandilla para preservar la alineación de seguridad durante el ajuste fino, compuesto por dos componentes clave: un subespacio sensible a la seguridad y un espacio nulo resistente a daños. Primero, descomponemos explícitamente los pesos previamente entrenados en componentes relevantes para la seguridad e irrelevantes para la seguridad utilizando la descomposición de valores singulares precondicionados por covarianza, e inicializamos adaptadores de bajo rango a partir de los irrelevantes para la seguridad, mientras congelamos los componentes relevantes para la seguridad para preservar su mecanismo de seguridad asociado. En segundo lugar, construimos un proyector de espacio nulo que impide que las actualizaciones del adaptador alteren las salidas seguras ante indicaciones dañinas, manteniendo así el comportamiento de rechazo original. Los experimentos con varios modelos previamente entrenados en múltiples tareas posteriores demuestran que GuardSpace logra un rendimiento superior a los métodos existentes. En particular, para Llama-2-7B-Chat optimizado en GSM8K, GuardSpace supera al método de última generación AsFT, reduciendo la puntuación dañina promedio del 14,4% al 3,6%, al tiempo que mejora la precisión del 26,0% al 28,0%.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cómo la ingeniería transcultural impulsa el avance tecnológico

Una metodología para evaluar el riesgo de falla de métricas en LLM dentro del ámbito financiero

El diálogo como descubrimiento: navegar la intención humana a través de una investigación basada en principios

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido