Resumen: Los modelos de recompensa (RMS) son componentes clave para evaluar y guiar salidas del modelo de lenguaje. Sin embargo, los RM escalar tradicionales a menudo luchan por incorporar información contextual y de fondo durante la inferencia, lo que lleva a evaluaciones incompletas. RMS generativo (GRMS) intenta abordar estas limitaciones generando pasos de razonamiento intermedio. Sin embargo, su naturaleza e ineficiencia no controlada debido a la decodificación secuencial obstaculizan su despliegue industrial. Los escenarios industriales, como los sistemas de búsqueda y recomendación, a menudo implican tareas de dominio único que requieren evaluación a lo largo de dimensiones específicas. En tales contextos, el diagnóstico de “casos malos” requiere retroalimentación estructurada para identificar y optimizar los problemas específicos de la dimensión. En este documento, proponemos el Modelo de recompensa estructural (SRM), un marco modular e interpretable que integra modelos de rama lateral como generadores de características auxiliares. Al introducir dimensiones de grano fino, los SRM permiten una evaluación interpretable y eficiente, facilitando el diagnóstico y la optimización específicos. Este enfoque estructurado garantiza la adaptabilidad y escalabilidad para aplicaciones industriales. A través de experimentos completos, demostramos que los SRM superan a los RMS escalares y los GRM en robustez y alineación con las preferencias humanas. El diseño modular admite aún más la optimización eficiente para escenarios prácticos, lo que permite a SRM proporcionar una solución práctica de modelado de recompensas para la industria.
Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original