Cuantización consciente de la alineación para la seguridad de LLM

Resumen: La seguridad y la eficiencia son factores importantes al implementar modelos de lenguajes grandes (LLM). Los LLM están capacitados para seguir la alineación humana por motivos de seguridad, y luego se aplica la cuantificación posterior a la capacitación (PTQ) para mayor eficiencia. Sin embargo, estos dos objetivos a menudo están en conflicto, lo que revela una falla fundamental en el paradigma PTQ convencional: la cuantificación puede convertirse en una vulnerabilidad de seguridad si solo apunta a lograr una baja perplejidad. Los modelos pueden demostrar poca perplejidad pero exhibir una degradación significativa en alineación con la política de seguridad, lo que resalta que la perplejidad por sí sola es un indicador insuficiente y a menudo engañoso de la seguridad del modelo. Para abordar esto, proponemos la cuantificación consciente de la alineación (AAQ), un enfoque novedoso que integra la pérdida contrastiva que preserva la alineación (APC) en la tubería PTQ. En comparación con la pérdida de reconstrucción simple, el nuestro preserva explícitamente la alineación al alentar al modelo cuantificado a imitar su modelo seguro y sintonizado con instrucciones mientras se diferencia de la contraparte no alineada y previamente entrenada. Nuestro método logra esta sólida alineación de seguridad sin recurrir a conjuntos de datos de calibración especializados centrados en la seguridad, destacando su utilidad práctica y amplia aplicabilidad. AAQ es compatible con técnicas PTQ estándar y permite una cuantificación robusta de 4 bits (W4A4) en diversas familias de modelos como LLaMA, Qwen y Mistral, al tiempo que mantiene la seguridad donde fallan los métodos anteriores. Nuestro trabajo resuelve el equilibrio crítico entre eficiencia y seguridad, allanando el camino hacia LLM que sean eficientes y confiables. El código anónimo está disponible en el material complementario.

Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El muestreo restringido para los modelos de idiomas debería ser fácil: una perspectiva de MCMC

Un motor gráfico para la educación sobre solos de tonos de acordes de guitarra

Sociedad 5.0: un concepto japonés para una sociedad superinteligente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido