En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Optimización de preferencias estables para LLM: un enfoque bilevel más allá de la optimización de preferencias directas

Optimización de preferencias estables para LLM: un enfoque bilevel más allá de la optimización de preferencias directas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La optimización de preferencias directas (DPO) se ha convertido en una alternativa popular y eficiente al modelado de recompensas y al aprendizaje de refuerzo para alinear modelos lingüísticos con preferencias humanas. A pesar de su éxito empírico, las propiedades teóricas y las limitaciones intrínsecas de DPO permanecen subexploradas. En este trabajo, primero presentamos un análisis exhaustivo de la dinámica de DPO desde una perspectiva de evolución de probabilidad. Nuestro análisis revela que DPO es altamente sensible a la inicialización. También tiende a asignar mal la masa de probabilidad, lo que puede cambiar inadvertidamente la probabilidad de respuestas irrelevantes o no deseadas. Esta confusión puede reforzar involuntariamente el sesgo del modelo, lo que compromete tanto la estabilidad de la alineación del modelo como la consistencia con las preferencias previstas. Motivado por estos hallazgos teóricos, proponemos un marco de optimización bilevel en tierra teóricamente que integra estrictamente el ajuste fino supervisado con un objetivo DPO mejorado, también conocido como la optimización de preferencias estables. Nuestro enfoque introduce un esquema de regularización de principios para fomentar explícitamente la mejora de probabilidad absoluta para los resultados preferidos, al tiempo que mantiene la dinámica de optimización estable. Experimentos sobre razonamiento desafiante y puntos de referencia de resumen aclaran que nuestro método mejora constantemente la precisión del razonamiento y alinea mejor las distribuciones de salida con las preferencias previstas, superando a DPO estándar. La optimización de preferencias estables proporciona nuevas ideas sobre el diseño de objetivos de alineación basados en preferencias y abre nuevas vías para una alineación del modelo de lenguaje más confiable e interpretable.

Publicado Originalme en export.arxiv.org El 10 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web