Resumen: Los grandes modelos multimodales (LMM) han demostrado capacidades notables de resolución de problemas en varios dominios. Sin embargo, su capacidad para realizar un razonamiento matemático cuando las opciones de respuestas se representan como imágenes, un aspecto esencial de la comprensión de múltiples imágenes, los rescates subexplicados. Para cerrar esta brecha, presentamos Visiomath, un punto de referencia diseñado para evaluar el razonamiento matemático en contextos multimodales que involucran opciones de respuestas basadas en imágenes. Visiomath comprende 8,070 imágenes y 1.800 preguntas de opción múltiple, donde cada opción de respuesta es una imagen, que presenta desafíos únicos a los LMM existentes. Hasta donde sabemos, Visiomath es el primer conjunto de datos específicamente adaptado para el razonamiento matemático en escenarios de opción basados en imágenes, donde las distinciones de grano fino entre las opciones de respuesta son críticas para la resolución precisa de los problemas. Evaluamos sistemáticamente los LMM de última generación en Visiomath y encontramos que incluso los modelos más avanzados luchan con esta tarea. En particular, GPT-4O logra solo un 45.9% de precisión, lo que subraya las limitaciones de los modelos actuales en el razonamiento sobre opciones de respuesta visualmente similares. Al abordar una brecha crucial en los puntos de referencia existentes, Visiomath establece una rigurosa prueba de prueba para futuras investigaciones, impulsando los avances en el razonamiento multimodal.
Publicado Originalme en rss.arxiv.org El 9 de junio de 2025.
Ver Fuente Original