En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Rectificar comportamientos abreviados en el aprendizaje de recompensas basado en preferencias

Rectificar comportamientos abreviados en el aprendizaje de recompensas basado en preferencias

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: En el aprendizaje por refuerzo a partir de la retroalimentación humana, los modelos de recompensa basados ​​en preferencias desempeñan un papel central a la hora de alinear grandes modelos de lenguaje con el comportamiento alineado con los humanos. Sin embargo, estudios recientes muestran que estos modelos son propensos a recompensar la piratería y, a menudo, no logran generalizarse bien debido a una optimización excesiva. Logran puntuaciones de recompensa altas explotando atajos, es decir, explotando características espurias (por ejemplo, verbosidad de respuesta, tono agradable o adulación) que se correlacionan con etiquetas de preferencia humana en los datos de entrenamiento en lugar de reflejar genuinamente los objetivos previstos. En este artículo, en lugar de investigar estos problemas uno por uno, adoptamos una visión más amplia del problema de la piratería de recompensas como comportamientos abreviados e introducimos un enfoque basado en principios pero flexible para mitigar los comportamientos abreviados en el aprendizaje de recompensas basado en preferencias. Inspirándonos en la teoría invariante desde la perspectiva del núcleo, proponemos la invariancia de recompensa basada en preferencias para la mitigación de atajos (PRISM), que aprende núcleos invariantes de grupo con mapas de características en un objetivo de aprendizaje de forma cerrada. Los resultados experimentales en varios puntos de referencia muestran que nuestro método mejora consistentemente la precisión del modelo de recompensa en diversas tareas fuera de la distribución y reduce la dependencia de atajos en los modelos de políticas posteriores, estableciendo un marco sólido para la alineación basada en preferencias.

Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web