Chart-COCA: comprensión de la tabla auto-planta de la visión LMS a través de la síntesis impulsada por el código y la respuesta condicionada por candidatos

Resumen: Los modelos de lenguaje de visión (VLM) a menudo luchan con las tareas de comprensión de los gráficos, particularmente en una descripción precisa del gráfico y un razonamiento complejo. La generación de datos sintéticos es una solución prometedora, mientras que generalmente enfrenta el desafío de las etiquetas de ruido. Para abordar este desafío, primero introducimos una tubería de síntesis de gráfico que genera tripletes alineados de respuesta de gráfico y respuesta a través de la generación y ejecución de código, asegurando la fiabilidad de los datos sintéticos sin intervención humana. Además, inspirado en la escala de tiempo de prueba que aumenta el presupuesto de inferencia y, por lo tanto, mejora el rendimiento, diseñamos un proceso de respuesta condicionado por el candidato. El VLM primero genera múltiples respuestas por consulta y luego sintetiza la respuesta final contextualizando a estos candidatos. Los experimentos demuestran mejoras significativas, con una ganancia de precisión de hasta 15.50 puntos sobre el VLM inicial, en un paradigma de mejor momento autoinformado sin datos marcados con humanos ni modelos externos.

Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un marco híbrido basado en el conocimiento para la seguridad y la trazabilidad en la verificación de recetas

La descarga: imitación de los primeros momentos del embarazo en un laboratorio y explicación de los parámetros de la IA

Desarrollo de bases de datos de conocimientos mediante grandes modelos lingüísticos para contramedidas contra virus y toxinas marinas.

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido