En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->VisTIRA: cerrar la brecha de modalidad imagen-texto en el razonamiento matemático visual mediante la integración de herramientas estructuradas

VisTIRA: cerrar la brecha de modalidad imagen-texto en el razonamiento matemático visual mediante la integración de herramientas estructuradas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje visual (VLM) van a la zaga de los modelos de lenguaje de solo texto en razonamiento matemático cuando los mismos problemas se presentan como imágenes en lugar de texto. Empíricamente caracterizamos esto como una brecha de modalidad: la misma pregunta en forma de texto produce una precisión notablemente mayor que su contraparte visualmente tipográfica, debido a fallas agravadas en la lectura de fórmulas densas, diseño y contexto simbólico-diagramático mixto. Primero, presentamos VisTIRA (Vision and Tool-Integrated Reasoning Agent), un marco de razonamiento integrado en herramientas que permite la resolución estructurada de problemas descomponiendo iterativamente un problema matemático determinado (como una imagen) en fundamentos de lenguaje natural y pasos ejecutables de Python para determinar la respuesta final. En segundo lugar, construimos un marco para medir y mejorar el razonamiento matemático visual: una canalización basada en LaTeX que convierte corpus matemáticos de cadena de pensamiento (por ejemplo, NuminaMath) en contrapartes de imágenes desafiantes, y un gran conjunto de trayectorias de uso de herramientas sintéticas derivadas de un conjunto de datos de imágenes del mundo real, estilo tarea (llamado SnapAsk) para ajustar los VLM. Nuestros experimentos muestran que la supervisión integrada en herramientas mejora el razonamiento basado en imágenes, y la conexión a tierra de OCR puede reducir aún más la brecha para modelos más pequeños, aunque su beneficio disminuye a escala. Estos hallazgos resaltan que la gravedad de la brecha de modalidad se correlaciona inversamente con el tamaño del modelo, y que el razonamiento estructurado y la base basada en OCR son estrategias complementarias para avanzar en el razonamiento matemático visual.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web