En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá de las recompensas monolíticas: una optimización de recompensas híbrida y de múltiples aspectos para la alineación de MLLM

Más allá de las recompensas monolíticas: una optimización de recompensas híbrida y de múltiples aspectos para la alineación de MLLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La alineación de modelos multimodales de lenguaje grande (MLLM) con las preferencias humanas a menudo se basa en métodos de recompensa basados ​​en modelos de señal única. Estas recompensas monolíticas a menudo carecen de una calibración de confianza en tareas de dominios específicos, no logran capturar diversos aspectos de las preferencias humanas y requieren una amplia anotación de datos y capacitación en modelos de recompensa. En este trabajo, proponemos un marco de modelado de recompensa híbrido que integra paradigmas de recompensa complementarios: (i) recompensas basadas en modelos, donde un modelo de recompensa aprendido predice puntuaciones escalares o vectoriales a partir de retroalimentación sintética y humana, y (ii) recompensas basadas en reglas, donde la heurística de dominio específico proporciona señales explícitas de corrección con confianza. Más allá de la precisión, incorporamos recompensas de múltiples aspectos para hacer cumplir la instrucción e introducimos una recompensa de penalización por duración generalizada para estabilizar el entrenamiento y mejorar el rendimiento. El marco propuesto proporciona un enfoque flexible y eficaz para alinear los MLLM mediante la optimización de políticas de aprendizaje por refuerzo. Nuestros experimentos muestran mejoras consistentes en diferentes puntos de referencia multimodales al aplicar modelos de recompensa híbridos y de múltiples aspectos. Nuestro modelo de mejor rendimiento en la familia 3B logra una mejora promedio general de ~9,5 % en tareas de razonamiento general y matemático. Centrándose específicamente en los puntos de referencia matemáticos, el modelo logra una mejora promedio significativa de ~16%, destacando su efectividad en el razonamiento matemático y la resolución de problemas.

Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web