En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Modelo de recompensa estructural: mejora de la interpretabilidad, eficiencia y escalabilidad en el modelado de recompensas

Modelo de recompensa estructural: mejora de la interpretabilidad, eficiencia y escalabilidad en el modelado de recompensas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de recompensa (RMS) son componentes clave para evaluar y guiar salidas del modelo de lenguaje. Sin embargo, los RM escalar tradicionales a menudo luchan por incorporar información contextual y de fondo durante la inferencia, lo que lleva a evaluaciones incompletas. RMS generativo (GRMS) intenta abordar estas limitaciones generando pasos de razonamiento intermedio. Sin embargo, su naturaleza e ineficiencia no controlada debido a la decodificación secuencial obstaculizan su despliegue industrial. Los escenarios industriales, como los sistemas de búsqueda y recomendación, a menudo implican tareas de dominio único que requieren evaluación a lo largo de dimensiones específicas. En tales contextos, el diagnóstico de “casos malos” requiere retroalimentación estructurada para identificar y optimizar los problemas específicos de la dimensión. En este documento, proponemos el Modelo de recompensa estructural (SRM), un marco modular e interpretable que integra modelos de rama lateral como generadores de características auxiliares. Al introducir dimensiones de grano fino, los SRM permiten una evaluación interpretable y eficiente, facilitando el diagnóstico y la optimización específicos. Este enfoque estructurado garantiza la adaptabilidad y escalabilidad para aplicaciones industriales. A través de experimentos completos, demostramos que los SRM superan a los RMS escalares y los GRM en robustez y alineación con las preferencias humanas. El diseño modular admite aún más la optimización eficiente para escenarios prácticos, lo que permite a SRM proporcionar una solución práctica de modelado de recompensas para la industria.

Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web