Visiomath: Benchmarking Mathematical Razoning en LMMS en LMM

Resumen: Los grandes modelos multimodales (LMM) han demostrado capacidades notables de resolución de problemas en varios dominios. Sin embargo, su capacidad para realizar un razonamiento matemático cuando las opciones de respuestas se representan como imágenes, un aspecto esencial de la comprensión de múltiples imágenes, los rescates subexplicados. Para cerrar esta brecha, presentamos Visiomath, un punto de referencia diseñado para evaluar el razonamiento matemático en contextos multimodales que involucran opciones de respuestas basadas en imágenes. Visiomath comprende 8,070 imágenes y 1.800 preguntas de opción múltiple, donde cada opción de respuesta es una imagen, que presenta desafíos únicos a los LMM existentes. Hasta donde sabemos, Visiomath es el primer conjunto de datos específicamente adaptado para el razonamiento matemático en escenarios de opción basados en imágenes, donde las distinciones de grano fino entre las opciones de respuesta son críticas para la resolución precisa de los problemas. Evaluamos sistemáticamente los LMM de última generación en Visiomath y encontramos que incluso los modelos más avanzados luchan con esta tarea. En particular, GPT-4O logra solo un 45.9% de precisión, lo que subraya las limitaciones de los modelos actuales en el razonamiento sobre opciones de respuesta visualmente similares. Al abordar una brecha crucial en los puntos de referencia existentes, Visiomath establece una rigurosa prueba de prueba para futuras investigaciones, impulsando los avances en el razonamiento multimodal.

Publicado Originalme en rss.arxiv.org El 9 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Agentes de IA vs. AI AGENIC: una taxonomía conceptual, aplicaciones y desafío

Hecho de la semana – 5/5/2025

Síntesis del programa de clasificación química utilizando inteligencia artificial generativa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido