Optimización de preferencias estables para LLM: un enfoque bilevel más allá de la optimización de preferencias directas

Resumen: La optimización de preferencias directas (DPO) se ha convertido en una alternativa popular y eficiente al modelado de recompensas y al aprendizaje de refuerzo para alinear modelos lingüísticos con preferencias humanas. A pesar de su éxito empírico, las propiedades teóricas y las limitaciones intrínsecas de DPO permanecen subexploradas. En este trabajo, primero presentamos un análisis exhaustivo de la dinámica de DPO desde una perspectiva de evolución de probabilidad. Nuestro análisis revela que DPO es altamente sensible a la inicialización. También tiende a asignar mal la masa de probabilidad, lo que puede cambiar inadvertidamente la probabilidad de respuestas irrelevantes o no deseadas. Esta confusión puede reforzar involuntariamente el sesgo del modelo, lo que compromete tanto la estabilidad de la alineación del modelo como la consistencia con las preferencias previstas. Motivado por estos hallazgos teóricos, proponemos un marco de optimización bilevel en tierra teóricamente que integra estrictamente el ajuste fino supervisado con un objetivo DPO mejorado, también conocido como la optimización de preferencias estables. Nuestro enfoque introduce un esquema de regularización de principios para fomentar explícitamente la mejora de probabilidad absoluta para los resultados preferidos, al tiempo que mantiene la dinámica de optimización estable. Experimentos sobre razonamiento desafiante y puntos de referencia de resumen aclaran que nuestro método mejora constantemente la precisión del razonamiento y alinea mejor las distribuciones de salida con las preferencias previstas, superando a DPO estándar. La optimización de preferencias estables proporciona nuevas ideas sobre el diseño de objetivos de alineación basados en preferencias y abre nuevas vías para una alineación del modelo de lenguaje más confiable e interpretable.

Publicado Originalme en export.arxiv.org El 10 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: el próximo arma anti-drone y el crecimiento de la IA impulsando

Lo que la neurociencia puede enseñar a la IA sobre el aprendizaje en entornos que cambia continuamente

LF Decentralized Trust Marca un aniversario de un año con nuevos miembros, graduación de Hiero y Proyecto de privacidad de contrato inteligente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido