Resumen: La calidad de los datos de ajuste fino supervisado (SFT) es crucial para el rendimiento de grandes modelos multimodales (LMM); sin embargo, los métodos actuales de mejora de datos a menudo sufren de errores fácticos y alucinaciones debido a una percepción visual inadecuada. Para abordar este desafío, proponemos VERITAS, un canal que integra sistemáticamente antecedentes de visión y múltiples LMM de última generación con métodos estadísticos para mejorar la calidad de los datos SFT. VERITAS aprovecha los modelos de reconocimiento visual (RAM++) y los sistemas OCR (PP-OCRv4) para extraer antecedentes de visión estructurados, que se combinan con imágenes, preguntas y respuestas. Tres LMM (GPT-4o, Gemini-2.5-Pro, Doubao-1.5-pro) evalúan las respuestas originales, proporcionando fundamentos de crítica y puntuaciones que se fusionan estadísticamente en una puntuación de consenso de alta confianza que sirve como verdad fundamental. Utilizando este consenso, entrenamos un modelo crítico liviano a través de la Optimización de políticas relativas al grupo (GRPO), mejorando las capacidades de razonamiento de manera eficiente. Luego, cada LMM refina las respuestas originales en función de las críticas, generando nuevas respuestas candidatas; Seleccionamos la de mayor puntuación como respuesta final refinada. Los experimentos en seis puntos de referencia multimodales demuestran que los modelos ajustados con datos procesados por VERITAS superan consistentemente a aquellos que utilizan datos sin procesar, particularmente en tareas de razonamiento detalladas y ricas en texto. Nuestro modelo crítico exhibe una capacidad mejorada comparable a los LMM de última generación y, al mismo tiempo, es significativamente más eficiente. Publicamos nuestra cartera, conjuntos de datos y puntos de control de modelos para avanzar en la investigación en optimización de datos multimodales.
Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original
