En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Mármol: un punto de referencia difícil para el razonamiento espacial multimodal y la planificación

Mármol: un punto de referencia difícil para el razonamiento espacial multimodal y la planificación

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La capacidad de procesar información de múltiples modalidades y razonar a través de TI paso a paso sigue siendo un desafío crítico para avanzar en la inteligencia artificial. Sin embargo, los puntos de referencia de razonamiento existentes se centran en el razonamiento de solo texto o emplean preguntas multimodales que pueden responderse recuperando directamente la información de una modalidad sin texto. Por lo tanto, el razonamiento complejo sigue siendo poco entendido en los dominios multimodales. Aquí, presentamos Marble, un desafiante referencia de razonamiento multimodal que está diseñado para analizar los modelos de lenguaje multimodal (MLLM) en su capacidad para razonar cuidadosamente paso a paso a través de problemas y entornos multimodales complejos. El mármol se compone de dos tareas altamente desafiantes, M-Portal y M-Cube, que requieren la elaboración y comprensión de los planes de varios pasos bajo limitaciones espaciales, visuales y físicas. Encontramos que los MLLM actuales funcionan mal en el mármol: los 12 modelos avanzados obtienen un rendimiento cercano al aleación en M-Portal y al 0% de precisión en M-Cube. Solo en subtareas simplificadas, algunos modelos superan la línea de base aleatoria, lo que indica que el razonamiento complejo sigue siendo un desafío para los MLLM existentes. Además, mostramos que la percepción sigue siendo un cuello de botella, donde los MLLM ocasionalmente no pueden extraer información de las entradas visuales. Al arrojar una luz sobre las limitaciones de los MLLM, esperamos que el mármol estimule el desarrollo de la próxima generación de modelos con la capacidad de razonar y planificar en muchos pasos de razonamiento multimodal.

Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web