Mármol: un punto de referencia difícil para el razonamiento espacial multimodal y la planificación

Resumen: La capacidad de procesar información de múltiples modalidades y razonar a través de TI paso a paso sigue siendo un desafío crítico para avanzar en la inteligencia artificial. Sin embargo, los puntos de referencia de razonamiento existentes se centran en el razonamiento de solo texto o emplean preguntas multimodales que pueden responderse recuperando directamente la información de una modalidad sin texto. Por lo tanto, el razonamiento complejo sigue siendo poco entendido en los dominios multimodales. Aquí, presentamos Marble, un desafiante referencia de razonamiento multimodal que está diseñado para analizar los modelos de lenguaje multimodal (MLLM) en su capacidad para razonar cuidadosamente paso a paso a través de problemas y entornos multimodales complejos. El mármol se compone de dos tareas altamente desafiantes, M-Portal y M-Cube, que requieren la elaboración y comprensión de los planes de varios pasos bajo limitaciones espaciales, visuales y físicas. Encontramos que los MLLM actuales funcionan mal en el mármol: los 12 modelos avanzados obtienen un rendimiento cercano al aleación en M-Portal y al 0% de precisión en M-Cube. Solo en subtareas simplificadas, algunos modelos superan la línea de base aleatoria, lo que indica que el razonamiento complejo sigue siendo un desafío para los MLLM existentes. Además, mostramos que la percepción sigue siendo un cuello de botella, donde los MLLM ocasionalmente no pueden extraer información de las entradas visuales. Al arrojar una luz sobre las limitaciones de los MLLM, esperamos que el mármol estimule el desarrollo de la próxima generación de modelos con la capacidad de razonar y planificar en muchos pasos de razonamiento multimodal.

Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mejora del aprendizaje interactivo en contexto a partir de comentarios en lenguaje natural

Oibench: Benchmarking Modelos de razonamiento fuertes con Olimpíada en Informática

Lecciones de un chimpancé: AI “Scheming” y la búsqueda del lenguaje APE

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido