VisTIRA: cerrar la brecha de modalidad imagen-texto en el razonamiento matemático visual mediante la integración de herramientas estructuradas

Resumen: Los modelos de lenguaje visual (VLM) van a la zaga de los modelos de lenguaje de solo texto en razonamiento matemático cuando los mismos problemas se presentan como imágenes en lugar de texto. Empíricamente caracterizamos esto como una brecha de modalidad: la misma pregunta en forma de texto produce una precisión notablemente mayor que su contraparte visualmente tipográfica, debido a fallas agravadas en la lectura de fórmulas densas, diseño y contexto simbólico-diagramático mixto. Primero, presentamos VisTIRA (Vision and Tool-Integrated Reasoning Agent), un marco de razonamiento integrado en herramientas que permite la resolución estructurada de problemas descomponiendo iterativamente un problema matemático determinado (como una imagen) en fundamentos de lenguaje natural y pasos ejecutables de Python para determinar la respuesta final. En segundo lugar, construimos un marco para medir y mejorar el razonamiento matemático visual: una canalización basada en LaTeX que convierte corpus matemáticos de cadena de pensamiento (por ejemplo, NuminaMath) en contrapartes de imágenes desafiantes, y un gran conjunto de trayectorias de uso de herramientas sintéticas derivadas de un conjunto de datos de imágenes del mundo real, estilo tarea (llamado SnapAsk) para ajustar los VLM. Nuestros experimentos muestran que la supervisión integrada en herramientas mejora el razonamiento basado en imágenes, y la conexión a tierra de OCR puede reducir aún más la brecha para modelos más pequeños, aunque su beneficio disminuye a escala. Estos hallazgos resaltan que la gravedad de la brecha de modalidad se correlaciona inversamente con el tamaño del modelo, y que el razonamiento estructurado y la base basada en OCR son estrategias complementarias para avanzar en el razonamiento matemático visual.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Uniendo el control simbólico y el razonamiento neuronal en agentes LLM: el bucle cognitivo estructurado

Una vida para aprender: inferir modelos mundiales simbólicos para entornos estocásticos a partir de exploración no guiada

Marco de aprendizaje externo para juegos de cartas multijugador: un estudio de caso en Skat

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido