Modelo de recompensa estructural: mejora de la interpretabilidad, eficiencia y escalabilidad en el modelado de recompensas

Resumen: Los modelos de recompensa (RMS) son componentes clave para evaluar y guiar salidas del modelo de lenguaje. Sin embargo, los RM escalar tradicionales a menudo luchan por incorporar información contextual y de fondo durante la inferencia, lo que lleva a evaluaciones incompletas. RMS generativo (GRMS) intenta abordar estas limitaciones generando pasos de razonamiento intermedio. Sin embargo, su naturaleza e ineficiencia no controlada debido a la decodificación secuencial obstaculizan su despliegue industrial. Los escenarios industriales, como los sistemas de búsqueda y recomendación, a menudo implican tareas de dominio único que requieren evaluación a lo largo de dimensiones específicas. En tales contextos, el diagnóstico de “casos malos” requiere retroalimentación estructurada para identificar y optimizar los problemas específicos de la dimensión. En este documento, proponemos el Modelo de recompensa estructural (SRM), un marco modular e interpretable que integra modelos de rama lateral como generadores de características auxiliares. Al introducir dimensiones de grano fino, los SRM permiten una evaluación interpretable y eficiente, facilitando el diagnóstico y la optimización específicos. Este enfoque estructurado garantiza la adaptabilidad y escalabilidad para aplicaciones industriales. A través de experimentos completos, demostramos que los SRM superan a los RMS escalares y los GRM en robustez y alineación con las preferencias humanas. El diseño modular admite aún más la optimización eficiente para escenarios prácticos, lo que permite a SRM proporcionar una solución práctica de modelado de recompensas para la industria.

Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Vortex: alineando la utilidad de las tareas y las preferencias humanas a través de la configuración de la recompensa guiada por LLM

¿Hasta qué punto pueden los LLM emular el comportamiento humano?: Un análisis estratégico a través del juego de negociación de compra y venta

Desde la percepción hasta la cognición: una encuesta de razonamiento interactivo en lenguaje de visión en modelos de idiomas grandes multimodales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido