VERITAS: Aprovechando Vision Priors y Expert Fusion para mejorar los datos multimodales

Resumen: La calidad de los datos de ajuste fino supervisado (SFT) es crucial para el rendimiento de grandes modelos multimodales (LMM); sin embargo, los métodos actuales de mejora de datos a menudo sufren de errores fácticos y alucinaciones debido a una percepción visual inadecuada. Para abordar este desafío, proponemos VERITAS, un canal que integra sistemáticamente antecedentes de visión y múltiples LMM de última generación con métodos estadísticos para mejorar la calidad de los datos SFT. VERITAS aprovecha los modelos de reconocimiento visual (RAM++) y los sistemas OCR (PP-OCRv4) para extraer antecedentes de visión estructurados, que se combinan con imágenes, preguntas y respuestas. Tres LMM (GPT-4o, Gemini-2.5-Pro, Doubao-1.5-pro) evalúan las respuestas originales, proporcionando fundamentos de crítica y puntuaciones que se fusionan estadísticamente en una puntuación de consenso de alta confianza que sirve como verdad fundamental. Utilizando este consenso, entrenamos un modelo crítico liviano a través de la Optimización de políticas relativas al grupo (GRPO), mejorando las capacidades de razonamiento de manera eficiente. Luego, cada LMM refina las respuestas originales en función de las críticas, generando nuevas respuestas candidatas; Seleccionamos la de mayor puntuación como respuesta final refinada. Los experimentos en seis puntos de referencia multimodales demuestran que los modelos ajustados con datos procesados por VERITAS superan consistentemente a aquellos que utilizan datos sin procesar, particularmente en tareas de razonamiento detalladas y ricas en texto. Nuestro modelo crítico exhibe una capacidad mejorada comparable a los LMM de última generación y, al mismo tiempo, es significativamente más eficiente. Publicamos nuestra cartera, conjuntos de datos y puntos de control de modelos para avanzar en la investigación en optimización de datos multimodales.

Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El primer desafío MPDD: detección de depresión consciente de la personalidad multimodal

Maestro: generación de texto a imagen a través de autoinscripción a través de la orquestación del agente

Los trucos matemáticos de IA no funcionan para la informática científica

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido