Scar: asignación de crédito de Shapley para RLHF más eficiente

Resumen: El aprendizaje de refuerzo de la retroalimentación humana (RLHF) es una técnica ampliamente utilizada para alinear modelos de idiomas grandes (LLM) con preferencias humanas, sin embargo, a menudo sufre señales de recompensa dispersas, lo que hace que la asignación de crédito efectiva sea un desafío. En las configuraciones típicas, el modelo de recompensa proporciona una puntuación escalar única para una secuencia generada completa, ofreciendo poca información sobre la que las decisiones de token o nivel del tramo fueron responsables del resultado. Para abordar esto, proponemos las recompensas de asignación de crédito de Shapley (SCAR), un método novedoso que aprovecha los valores de Shapley en la teoría de juegos cooperativos. Scar distribuye la recompensa de nivel de secuencia total entre tokens constituyentes o tramos de texto en función de sus contribuciones marginales de principios. Esto crea densas señales de recompensa, de manera crucial, sin requerir la capacitación de modelos de crítica auxiliar o recurrir a anotaciones humanas de grano fino en etapas de generación intermedia. A diferencia de los métodos de recompensa densos anteriores, Scar ofrece una base teórica del juego para una atribución de crédito justo. Teóricamente, demostramos que la cicatriz preserva la política óptima original, y empíricamente, en diversas tareas, incluidos el control de sentimientos, el resumen de texto y el ajuste de instrucciones, mostramos que la cicatriz converge significativamente más rápido y logra los puntajes de recompensa finales más altos en comparación con el RLHF estándar y las bases de recompensas densas basadas en la atención. Nuestros hallazgos sugieren que SCAR proporciona un método más efectivo y teóricamente sólido para la asignación de crédito en RLHF, lo que lleva a una alineación más eficiente de LLM.

Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Explicando los rompecabezas de hitori: estadificación de prueba neurosymbólica para decisiones secuenciales

MDK12 Bench: una evaluación completa de modelos de lenguaje grande multimodal en exámenes multidisciplinarios

Mejora de la consistencia física en modelos mundiales livianos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido