CoReTab: mejora de la comprensión de las tablas multimodales con razonamiento basado en código

Resumen: Los conjuntos de datos existentes para la comprensión de tablas multimodales, como MMTab, proporcionan principalmente respuestas breves y fácticas sin una supervisión explícita del razonamiento de varios pasos. Los modelos entrenados en estos conjuntos de datos a menudo generan respuestas breves que ofrecen una precisión insuficiente y una interpretabilidad limitada sobre cómo estos modelos llegan a la respuesta final. Presentamos CoReTab, un marco de razonamiento basado en código que produce anotaciones escalables, interpretables y verificables automáticamente combinando razonamiento de varios pasos con código Python ejecutable. Utilizando el marco CoReTab, seleccionamos un conjunto de datos de 115.000 muestras verificadas con un promedio de 529 tokens por respuesta y ajustamos los MLLM de código abierto a través de un proceso de tres etapas. Evaluamos el modelo resultante entrenado en CoReTab en 17 puntos de referencia de MMTab que abarcan respuesta a preguntas en tablas, verificación de hechos y comprensión de la estructura de tablas. Nuestro modelo logra ganancias significativas de +6,2%, +5,7% y +25,6%, respectivamente, sobre las líneas de base entrenadas con MMTab, al tiempo que produce rastros de razonamiento transparentes y verificables. Estos resultados establecen a CoReTab como un marco de supervisión sólido y generalizable para mejorar el razonamiento de varios pasos en la comprensión de tablas multimodales.

Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Avanzando en los desafíos de la IA para el Departamento de la Fuerza Aérea de los Estados Unidos

Desde la generación de imágenes hasta el diseño de infraestructura: una tubería de múltiples agentes para la generación de diseño de calles

Agrigpt: un ecosistema de modelo de lenguaje grande para la agricultura

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido