M3Kang: Evaluación del razonamiento matemático multimodal multilingüe en modelos visión-lenguaje

Resumen:A pesar de que los modelos visión-lenguaje (VLM) de última generación han demostrado sólidas capacidades de razonamiento, su desempeño en el razonamiento matemático multilingüe sigue sin explorarse, particularmente en comparación con el desempeño humano. Para cerrar esta brecha, presentamos M3Kang, el primer conjunto de datos de razonamiento matemático multimodal y multilingüe masivo para VLM. Se deriva del Kangaroo Math Competition, el concurso de matemáticas más grande del mundo, en el que anualmente participan más de seis millones de participantes menores de 18 años en más de 90 países. M3Kang incluye 1.747 problemas únicos de opción múltiple organizados por dificultad de nivel de grado, con traducciones a 108 idiomas culturalmente diversos, algunos de ellos incluyen diagramas esenciales para resolverlos. Utilizando este conjunto de datos, realizamos evaluaciones comparativas exhaustivas en modelos SOTA de código abierto y cerrado. Observamos que, a pesar de los avances recientes, los modelos todavía tienen dificultades con las matemáticas básicas y el razonamiento basado en diagramas, con la escala del desempeño con la presencia del lenguaje y el tamaño del modelo, pero no con el nivel de grado. También encontramos que las técnicas multilingües pueden extenderse efectivamente al entorno multimodal, lo que resulta en mejoras significativas con respecto a los enfoques de referencia. Nuestro análisis también incorpora datos de desempeño de más de 68,000 estudiantes, lo que permite una comparación directa con el desempeño humano. Somos M3Kang de código abierto, incluido el subconjunto M2Kang solo en inglés, junto con el marco y la base de código utilizados para construir el conjunto de datos.

Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Enumerate-conyectura-Propenso: Resolver formalmente problemas de construcción de respuestas en concursos de matemáticas

Exploración consciente de las tareas a través de una métrica de bisimulación predictiva

miniF2F-Lean revisitado: revisando las limitaciones y trazando un camino a seguir

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido