Rectificar comportamientos abreviados en el aprendizaje de recompensas basado en preferencias

Resumen: En el aprendizaje por refuerzo a partir de la retroalimentación humana, los modelos de recompensa basados en preferencias desempeñan un papel central a la hora de alinear grandes modelos de lenguaje con el comportamiento alineado con los humanos. Sin embargo, estudios recientes muestran que estos modelos son propensos a recompensar la piratería y, a menudo, no logran generalizarse bien debido a una optimización excesiva. Logran puntuaciones de recompensa altas explotando atajos, es decir, explotando características espurias (por ejemplo, verbosidad de respuesta, tono agradable o adulación) que se correlacionan con etiquetas de preferencia humana en los datos de entrenamiento en lugar de reflejar genuinamente los objetivos previstos. En este artículo, en lugar de investigar estos problemas uno por uno, adoptamos una visión más amplia del problema de la piratería de recompensas como comportamientos abreviados e introducimos un enfoque basado en principios pero flexible para mitigar los comportamientos abreviados en el aprendizaje de recompensas basado en preferencias. Inspirándonos en la teoría invariante desde la perspectiva del núcleo, proponemos la invariancia de recompensa basada en preferencias para la mitigación de atajos (PRISM), que aprende núcleos invariantes de grupo con mapas de características en un objetivo de aprendizaje de forma cerrada. Los resultados experimentales en varios puntos de referencia muestran que nuestro método mejora consistentemente la precisión del modelo de recompensa en diversas tareas fuera de la distribución y reduce la dependencia de atajos en los modelos de políticas posteriores, estableciendo un marco sólido para la alineación basada en preferencias.

Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

SI-Agent: un marco de agente para la generación y ajuste de la retroalimentación de instrucciones del sistema legible por humanos para modelos de idiomas grandes

Herramientas de creación y gestión de ontología: el caso de la conectividad anatómica

Sticker-TTS: Aprenda a utilizar la experiencia histórica con un marco de escala de tiempo de prueba impulsado por pegatinas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido