Resumen: A medida que los modelos de idiomas grandes (LLM) se implementan cada vez más en diversas aplicaciones orientadas al usuario, alinearlos con preferencias reales del usuario se vuelve esencial. Los métodos existentes como el aprendizaje de refuerzo de la retroalimentación humana (RLHF) dependen de anotadores expertos capacitados en pautas definidas manualmente, cuyos juicios pueden no reflejar las prioridades de los usuarios cotidianos. Introducimos el aprendizaje de refuerzo de los comentarios de los usuarios (RLUF), un marco para alinear los LLM directamente a las señales implícitas de los usuarios en la producción. RLUF aborda desafíos clave de los comentarios de los usuarios: la retroalimentación del usuario a menudo es binaria (por ejemplo, reacciones de emoji), escasas y ocasionalmente adversas. Entrenamos un modelo de recompensa, P [amor], para predecir la probabilidad de que una respuesta de LLM reciba una reacción amorosa, una forma liviana de comentarios positivos de los usuarios e integrar P [amor] en un marco de optimización de políticas de objetivos múltiples junto con los objetivos de ayuda y seguridad. En experimentos a gran escala, mostramos que P [amor] es predictivo de un aumento de la retroalimentación positiva y sirve como un evaluador confiable fuera de línea del comportamiento futuro del usuario. La optimización de políticas utilizando P [amor] aumenta significativamente las tasas de retroalimentación positiva observadas, incluido un aumento del 28% en las reacciones de amor durante las pruebas A/B vivas. Sin embargo, la optimización de reacciones positivas introduce desafíos de piratería de recompensas, lo que requiere un equilibrio cuidadoso de los objetivos. Al aprovechar directamente las señales implícitas de los usuarios, RLUF ofrece una ruta para alinear los LLM con las preferencias del usuario del mundo real a escala.
Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original