Resumen: Los conjuntos de datos existentes para la comprensión de tablas multimodales, como MMTab, proporcionan principalmente respuestas breves y fácticas sin una supervisión explícita del razonamiento de varios pasos. Los modelos entrenados en estos conjuntos de datos a menudo generan respuestas breves que ofrecen una precisión insuficiente y una interpretabilidad limitada sobre cómo estos modelos llegan a la respuesta final. Presentamos CoReTab, un marco de razonamiento basado en código que produce anotaciones escalables, interpretables y verificables automáticamente combinando razonamiento de varios pasos con código Python ejecutable. Utilizando el marco CoReTab, seleccionamos un conjunto de datos de 115.000 muestras verificadas con un promedio de 529 tokens por respuesta y ajustamos los MLLM de código abierto a través de un proceso de tres etapas. Evaluamos el modelo resultante entrenado en CoReTab en 17 puntos de referencia de MMTab que abarcan respuesta a preguntas en tablas, verificación de hechos y comprensión de la estructura de tablas. Nuestro modelo logra ganancias significativas de +6,2%, +5,7% y +25,6%, respectivamente, sobre las líneas de base entrenadas con MMTab, al tiempo que produce rastros de razonamiento transparentes y verificables. Estos resultados establecen a CoReTab como un marco de supervisión sólido y generalizable para mejorar el razonamiento de varios pasos en la comprensión de tablas multimodales.
Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original
