Resumen: La capacitación de modelos de lenguaje grande multimodal (MLLM) que se alinean con las intenciones humanas es un desafío a largo plazo. Los modelos tradicionales de recompensa de puntaje solo para la alineación sufren de baja precisión, generalización débil e interpretabilidad deficiente, bloqueando el progreso de los métodos de alineación, por ejemplo, el aprendizaje de refuerzo de la retroalimentación humana (RLHF). Los modelos de recompensa generativo (GRMS) aprovechan las capacidades de razonamiento intrínseco de MLLMS para discriminar las respuestas en parejas, pero su paradigma en pareja hace que sea difícil generalizar a recompensas aprendibles. Introducimos RLHF-V generativo, un marco de alineación novedoso que integra GRM con RLHF multimodal. Proponemos una tubería de dos etapas: $ textbf {Modelado de recompensa generativo multimodal de RL} $, donde RL guía GRMS para capturar activamente la intención humana, luego predecir las puntuaciones correctas de pares; y $ textbf {Optimización de RL de la comparación agrupada} $, que mejora la precisión de puntuación de RL multimodal mediante la comparación de respuestas agrupadas. Los resultados experimentales demuestran que, además de la generalización fuera de distribución de la discriminación de RM, nuestro marco mejora el rendimiento de 4 MLLM en 7 puntos de referencia en $ 18.1 %$, mientras que la línea de base RLHF es de solo $ 5.3 %$. Además, validamos que RLHF-V generativo logra una mejora casi lineal con un número creciente de respuestas candidatas. Nuestro código y modelos se pueden encontrar en esta URL HTTPS.
Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original