Resumen: El razonamiento multimodal ha surgido como un marco poderoso para mejorar las capacidades de razonamiento de los modelos de razonamiento. Si bien los métodos de razonamiento de tablas de múltiples turnos han mejorado la precisión del razonamiento mediante el uso de herramientas y el modelado de recompensas, se basan en la serialización de texto fijo para las lecturas del estado de la tabla. Esto introduce errores de representación en la codificación de tablas que se acumulan significativamente a lo largo de múltiples turnos. Esta acumulación se alivia mediante métodos de conexión a tierra tabular a expensas del cálculo y el costo de inferencia, lo que hace que la implementación en el mundo real no sea práctica. Para abordar esto, presentamos TABQAWORLD, un marco de razonamiento de tablas que optimiza conjuntamente la acción tabular mediante representación y estimación. Para la representación, TABQAWORLD emplea una política de selección multimodal condicionada por la acción, que cambia dinámicamente entre representaciones visuales y textuales para maximizar la confiabilidad de la lectura del estado de la tabla. Para la estimación, TABQAWORLD optimiza la trayectoria de razonamiento paso a paso a través de metadatos de tablas que incluyen dimensiones, tipos de datos y valores clave, planificando de forma segura la trayectoria y comprimiendo acciones de baja complejidad para reducir los turnos de conversación y la latencia. Diseñado como un marco sin capacitación, las evaluaciones empíricas muestran que TABQAWORLD logra un rendimiento de vanguardia con mejoras de precisión del 4,87 % con respecto a las líneas de base, con una ganancia de precisión del 5,42 % y una reducción de la latencia de inferencia del 33,35 % con respecto a configuraciones estáticas, estableciendo un nuevo estándar para el razonamiento de tablas confiable y eficiente.
Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original
