Lora es todo lo que necesita para la alineación de seguridad de los LLM de razonamiento

Resumen: El razonamiento LLMS ha demostrado avances notables para resolver problemas complejos que anteriormente estaban fuera del alcance. Para garantizar que los LLM no ayuden con solicitudes dañinas, es necesario ajustar la alineación de seguridad en la fase posterior a la capacitación. Sin embargo, recientemente se ha demostrado que la alineación de seguridad del ajuste fino degrada significativamente las habilidades de razonamiento, un fenómeno conocido como el “impuesto de seguridad”. En este trabajo, mostramos que el uso de Lora para SFT en conjuntos de datos de rechazo alinea efectivamente el modelo de seguridad sin dañar sus capacidades de razonamiento. Esto se debe a que restringir las actualizaciones de peso de seguridad a un espacio de bajo rango minimiza la interferencia con los pesos de razonamiento. Nuestros extensos experimentos en cuatro puntos de referencia que cubren las matemáticas, la ciencia y la codificación muestran que este enfoque produce LLM altamente seguros, con niveles de seguridad comparables al ajuste de modelos completos, sin comprometer sus habilidades de razonamiento. Además, observamos que Lora induce actualizaciones de peso con una superposición más pequeña con los pesos iniciales en comparación con el ajuste de modelo completo. También exploramos métodos que reducen aún más dicha superposición, a través de la regularización o durante la fusión de peso, y observamos alguna mejora en ciertas tareas. Esperamos que este resultado motive los enfoques de diseño que producen mejoras más consistentes en la compensación de seguridad de razonamiento.

Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Avanzando hacia LessOps con migraciones de VMware a la nube

La descarga: chatbots para la salud y luchas en EE.UU. por la regulación de la IA

La búsqueda de la fusión de Dennis Whyte

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido