MM-R5: Reranker mejorado con razonamiento multimodal a través del aprendizaje de refuerzo para la recuperación de documentos

Resumen: Los sistemas de recuperación de documentos multimodales permiten el acceso a la información a través del texto, las imágenes y los diseños, beneficiando varios dominios como respuesta de preguntas basadas en documentos, análisis de informes y resumen de contenido interactivo. Los vuelos a los vuelos mejoran la precisión de la recuperación al reordenar a los candidatos recuperados. Sin embargo, los métodos actuales de replicación multimodal permanecen subexplorados, con un espacio significativo para la mejora tanto en las estrategias de capacitación como en la efectividad general. Además, la falta de razonamiento explícito hace que sea difícil analizar y optimizar aún más estos métodos. En este documento, proponemos MM-R5, un Reranker mejorado por el razonamiento multimodal a través del aprendizaje de refuerzo para la recuperación de documentos, con el objetivo de proporcionar una solución más efectiva y confiable para tareas multimodales de relieve. MM-R5 está entrenado en dos etapas: ajuste fino supervisado (SFT) y aprendizaje de refuerzo (RL). En la etapa SFT, nos enfocamos en mejorar el seguimiento de las instrucciones y guiar al modelo para generar cadenas de razonamiento completas y de alta calidad. Para apoyar esto, presentamos una nueva estrategia de construcción de datos que produce datos de razonamiento ricos y de alta calidad. En la etapa RL, diseñamos un marco de recompensa específico de la tarea, incluida una recompensa de rerantería adaptada para candidatos multimodales y una recompensa basada en plantillas compuestas para refinar aún más la calidad del razonamiento. Llevamos a cabo amplios experimentos en MMDocir, un punto de referencia público desafiante que abarca múltiples dominios. MM-R5 logra el rendimiento de vanguardia en la mayoría de las métricas y ofrece resultados comparables a modelos mucho más grandes en los restantes. Además, en comparación con el mejor método de recuperación, MM-R5 mejora el retiro@1 en más del 4%. Estos resultados validan la efectividad de nuestra tubería de entrenamiento mejorada por el razonamiento.

Publicado Originalme en rss.arxiv.org El 16 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Desde el lenguaje hasta la lógica: un marco de bi-nivel para el razonamiento estructurado

Optimización de políticas proximales truncadas

Coalition for Smarter Buildings Foundation permite la innovación de gestión de edificios con contribuciones de proyectos técnicos de código abierto a la Fundación Linux

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido