En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Scar: asignación de crédito de Shapley para RLHF más eficiente

Scar: asignación de crédito de Shapley para RLHF más eficiente

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El aprendizaje de refuerzo de la retroalimentación humana (RLHF) es una técnica ampliamente utilizada para alinear modelos de idiomas grandes (LLM) con preferencias humanas, sin embargo, a menudo sufre señales de recompensa dispersas, lo que hace que la asignación de crédito efectiva sea un desafío. En las configuraciones típicas, el modelo de recompensa proporciona una puntuación escalar única para una secuencia generada completa, ofreciendo poca información sobre la que las decisiones de token o nivel del tramo fueron responsables del resultado. Para abordar esto, proponemos las recompensas de asignación de crédito de Shapley (SCAR), un método novedoso que aprovecha los valores de Shapley en la teoría de juegos cooperativos. Scar distribuye la recompensa de nivel de secuencia total entre tokens constituyentes o tramos de texto en función de sus contribuciones marginales de principios. Esto crea densas señales de recompensa, de manera crucial, sin requerir la capacitación de modelos de crítica auxiliar o recurrir a anotaciones humanas de grano fino en etapas de generación intermedia. A diferencia de los métodos de recompensa densos anteriores, Scar ofrece una base teórica del juego para una atribución de crédito justo. Teóricamente, demostramos que la cicatriz preserva la política óptima original, y empíricamente, en diversas tareas, incluidos el control de sentimientos, el resumen de texto y el ajuste de instrucciones, mostramos que la cicatriz converge significativamente más rápido y logra los puntajes de recompensa finales más altos en comparación con el RLHF estándar y las bases de recompensas densas basadas en la atención. Nuestros hallazgos sugieren que SCAR proporciona un método más efectivo y teóricamente sólido para la asignación de crédito en RLHF, lo que lleva a una alineación más eficiente de LLM.

Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web