MARVL-QA: un punto de referencia para el razonamiento matemático sobre paisajes visuales

Resumen: Una frontera clave para los modelos de lenguaje grande multimodal (MLLMS) es la capacidad de realizar un razonamiento matemático y espacial profundo directamente a partir de las imágenes, yendo más allá de su éxito establecido en la descripción semántica. Las gráficas de superficie matemática proporcionan un riguroso lecho de prueba para esta capacidad, ya que aíslan la tarea de razonamiento del ruido semántico común en las imágenes naturales. Para medir el progreso en esta frontera, presentamos MARVL-QA (razonamiento matemático sobre paisajes visuales), un nuevo punto de referencia diseñado para evaluar cuantitativamente estas habilidades de razonamiento central. El punto de referencia comprende dos tareas novedosas: conteo topológico, identificación y características enumeradoras como los máximos locales; y reconocimiento de transformación, reconociendo las transformaciones geométricas aplicadas. Generada a partir de una biblioteca curada de funciones con filtrado de ambigüedad riguroso, nuestra evaluación en MARVL-QA revela que incluso los MLLM de última generación luchan significativamente, a menudo recurriendo a heurísticas superficiales en lugar de un razonamiento espacial robusto. MARVL-QA proporciona una nueva herramienta desafiante para que la comunidad de investigación mida el progreso, exponga las limitaciones del modelo y guíe el desarrollo de MLLM con habilidades de razonamiento más profundas.

Publicado Originalme en export.arxiv.org El 25 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Operacionalización de la cognición extendida: métricas formales para el conocimiento corporativo y la responsabilidad legal

Por qué 2026 es un año caluroso para el litio

La velocidad y el futuro están revolucionando el automovilismo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido