Resumen: Una frontera clave para los modelos de lenguaje grande multimodal (MLLMS) es la capacidad de realizar un razonamiento matemático y espacial profundo directamente a partir de las imágenes, yendo más allá de su éxito establecido en la descripción semántica. Las gráficas de superficie matemática proporcionan un riguroso lecho de prueba para esta capacidad, ya que aíslan la tarea de razonamiento del ruido semántico común en las imágenes naturales. Para medir el progreso en esta frontera, presentamos MARVL-QA (razonamiento matemático sobre paisajes visuales), un nuevo punto de referencia diseñado para evaluar cuantitativamente estas habilidades de razonamiento central. El punto de referencia comprende dos tareas novedosas: conteo topológico, identificación y características enumeradoras como los máximos locales; y reconocimiento de transformación, reconociendo las transformaciones geométricas aplicadas. Generada a partir de una biblioteca curada de funciones con filtrado de ambigüedad riguroso, nuestra evaluación en MARVL-QA revela que incluso los MLLM de última generación luchan significativamente, a menudo recurriendo a heurísticas superficiales en lugar de un razonamiento espacial robusto. MARVL-QA proporciona una nueva herramienta desafiante para que la comunidad de investigación mida el progreso, exponga las limitaciones del modelo y guíe el desarrollo de MLLM con habilidades de razonamiento más profundas.
Publicado Originalme en export.arxiv.org El 25 de agosto de 2025.
Ver Fuente Original
