En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Lora es todo lo que necesita para la alineación de seguridad de los LLM de razonamiento

Lora es todo lo que necesita para la alineación de seguridad de los LLM de razonamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El razonamiento LLMS ha demostrado avances notables para resolver problemas complejos que anteriormente estaban fuera del alcance. Para garantizar que los LLM no ayuden con solicitudes dañinas, es necesario ajustar la alineación de seguridad en la fase posterior a la capacitación. Sin embargo, recientemente se ha demostrado que la alineación de seguridad del ajuste fino degrada significativamente las habilidades de razonamiento, un fenómeno conocido como el “impuesto de seguridad”. En este trabajo, mostramos que el uso de Lora para SFT en conjuntos de datos de rechazo alinea efectivamente el modelo de seguridad sin dañar sus capacidades de razonamiento. Esto se debe a que restringir las actualizaciones de peso de seguridad a un espacio de bajo rango minimiza la interferencia con los pesos de razonamiento. Nuestros extensos experimentos en cuatro puntos de referencia que cubren las matemáticas, la ciencia y la codificación muestran que este enfoque produce LLM altamente seguros, con niveles de seguridad comparables al ajuste de modelos completos, sin comprometer sus habilidades de razonamiento. Además, observamos que Lora induce actualizaciones de peso con una superposición más pequeña con los pesos iniciales en comparación con el ajuste de modelo completo. También exploramos métodos que reducen aún más dicha superposición, a través de la regularización o durante la fusión de peso, y observamos alguna mejora en ciertas tareas. Esperamos que este resultado motive los enfoques de diseño que producen mejoras más consistentes en la compensación de seguridad de razonamiento.

Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web