Más allá de las recompensas monolíticas: una optimización de recompensas híbrida y de múltiples aspectos para la alineación de MLLM

Resumen: La alineación de modelos multimodales de lenguaje grande (MLLM) con las preferencias humanas a menudo se basa en métodos de recompensa basados en modelos de señal única. Estas recompensas monolíticas a menudo carecen de una calibración de confianza en tareas de dominios específicos, no logran capturar diversos aspectos de las preferencias humanas y requieren una amplia anotación de datos y capacitación en modelos de recompensa. En este trabajo, proponemos un marco de modelado de recompensa híbrido que integra paradigmas de recompensa complementarios: (i) recompensas basadas en modelos, donde un modelo de recompensa aprendido predice puntuaciones escalares o vectoriales a partir de retroalimentación sintética y humana, y (ii) recompensas basadas en reglas, donde la heurística de dominio específico proporciona señales explícitas de corrección con confianza. Más allá de la precisión, incorporamos recompensas de múltiples aspectos para hacer cumplir la instrucción e introducimos una recompensa de penalización por duración generalizada para estabilizar el entrenamiento y mejorar el rendimiento. El marco propuesto proporciona un enfoque flexible y eficaz para alinear los MLLM mediante la optimización de políticas de aprendizaje por refuerzo. Nuestros experimentos muestran mejoras consistentes en diferentes puntos de referencia multimodales al aplicar modelos de recompensa híbridos y de múltiples aspectos. Nuestro modelo de mejor rendimiento en la familia 3B logra una mejora promedio general de ~9,5 % en tareas de razonamiento general y matemático. Centrándose específicamente en los puntos de referencia matemáticos, el modelo logra una mejora promedio significativa de ~16%, destacando su efectividad en el razonamiento matemático y la resolución de problemas.

Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Bench de objetivos: evaluación de sesgos de toma de decisiones de Agentic LLM como gerente de inventario

Las culturas materiales miran al pasado para construir el futuro

Más allá de lo conocido: Toma de decisiones con transformador de decisión de razonamiento contrafactual

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido