Resumen: La capacitación de modelos de lenguaje grande multimodal (MLLM) que se alinean con las intenciones humanas es un desafío a largo plazo. Los modelos tradicionales de recompensa de puntaje solo para la alineación sufren de baja precisión, generalización débil e interpretabilidad deficiente, bloqueando el progreso de los métodos de alineación, por ejemplo, el aprendizaje de refuerzo de la retroalimentación humana (RLHF). Los modelos de recompensa generativo (GRMS) aprovechan las capacidades de razonamiento intrínseco de MLLMS para discriminar las respuestas en parejas, pero su paradigma en pareja hace que sea difícil generalizar a recompensas aprendibles. Introducimos RLHF-V generativo, un marco de alineación novedoso que integra GRM con RLHF multimodal. Proponemos una tubería de dos etapas: $ textbf {Modelado de recompensa generativo multimodal de RL} $, donde RL guía GRMS para capturar activamente la intención humana, luego predecir las puntuaciones correctas de pares; y $ textbf {Optimización de RL de la comparación agrupada} $, que mejora la precisión de puntuación de RL multimodal mediante la comparación de respuestas agrupadas. Los resultados experimentales demuestran que, además de la generalización fuera de distribución de la discriminación de RM, nuestro marco mejora el rendimiento de 4 MLLM en 7 puntos de referencia en $ 18.1 %$, mientras que la línea de base RLHF es de solo $ 5.3 %$. Además, validamos que RLHF-V generativo logra una mejora casi lineal con un número creciente de respuestas candidatas. Nuestro código y modelos se pueden encontrar en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original

RLHF-V generativo: principios de aprendizaje de preferencia humana multimodal

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Realidades divergentes: un análisis comparativo de expertos humanos versus generación basada en inteligencia artificial y evaluación de planes de tratamiento en dermatología

Navegación de punto de vista basado en el lenguaje natural para la exploración de volumen a través de la representación de bloques semánticos

Linux Foundation le da la bienvenida al proyecto Agntcy para estandarizar la infraestructura del sistema de múltiples agentes abiertos y desglosar el agente de IA Silos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido