En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Cuantización consciente de la alineación para la seguridad de LLM

Cuantización consciente de la alineación para la seguridad de LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La seguridad y la eficiencia son factores importantes al implementar modelos de lenguajes grandes (LLM). Los LLM están capacitados para seguir la alineación humana por motivos de seguridad, y luego se aplica la cuantificación posterior a la capacitación (PTQ) para mayor eficiencia. Sin embargo, estos dos objetivos a menudo están en conflicto, lo que revela una falla fundamental en el paradigma PTQ convencional: la cuantificación puede convertirse en una vulnerabilidad de seguridad si solo apunta a lograr una baja perplejidad. Los modelos pueden demostrar poca perplejidad pero exhibir una degradación significativa en alineación con la política de seguridad, lo que resalta que la perplejidad por sí sola es un indicador insuficiente y a menudo engañoso de la seguridad del modelo. Para abordar esto, proponemos la cuantificación consciente de la alineación (AAQ), un enfoque novedoso que integra la pérdida contrastiva que preserva la alineación (APC) en la tubería PTQ. En comparación con la pérdida de reconstrucción simple, el nuestro preserva explícitamente la alineación al alentar al modelo cuantificado a imitar su modelo seguro y sintonizado con instrucciones mientras se diferencia de la contraparte no alineada y previamente entrenada. Nuestro método logra esta sólida alineación de seguridad sin recurrir a conjuntos de datos de calibración especializados centrados en la seguridad, destacando su utilidad práctica y amplia aplicabilidad. AAQ es compatible con técnicas PTQ estándar y permite una cuantificación robusta de 4 bits (W4A4) en diversas familias de modelos como LLaMA, Qwen y Mistral, al tiempo que mantiene la seguridad donde fallan los métodos anteriores. Nuestro trabajo resuelve el equilibrio crítico entre eficiencia y seguridad, allanando el camino hacia LLM que sean eficientes y confiables. El código anónimo está disponible en el material complementario.

Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web