Jigsaw-Puzzles: desde ver hasta la comprensión hasta el razonamiento en los modelos en idioma de la visión

Resumen: El razonamiento espacial es un componente central de la cognición humana, que permite a los individuos percibir, comprender e interactuar con el mundo físico. Se basa en una comprensión matizada de las estructuras espaciales y las relaciones entre objetivos, que sirven como base para el razonamiento y la toma de decisiones complejas. Para investigar si los modelos actuales del idioma de visión (VLMS) exhiben una capacidad similar, introducimos los hojas de rompecabezas, un nuevo punto de referencia que consta de 1.100 imágenes cuidadosamente seleccionadas del mundo real con alta complejidad espacial. Con base en este conjunto de datos, diseñamos cinco tareas para evaluar rigurosamente la percepción espacial de VLMS, la comprensión estructural y las capacidades de razonamiento, al tiempo que minimizamos deliberadamente la dependencia del conocimiento específico del dominio para aislar y evaluar mejor la capacidad de razonamiento espacial general. Llevamos a cabo una evaluación integral en 24 VLM de última generación. Los resultados muestran que incluso el modelo más fuerte, Gemini-2.5-Pro, logra solo el 77.14% de precisión general y funciona particularmente mal en la tarea de generación de pedidos, con solo un 30.00% de precisión, muy por debajo del rendimiento superior al 90% alcanzado por los participantes humanos. Esta brecha persistente subraya la necesidad de un progreso continuo, posicionando los hojas de rompecabezas como un punto de referencia desafiante y de diagnóstico para avanzar en la investigación de razonamiento espacial en VLM.

Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Reconocimiento detallado de emociones a través del aprendizaje en contexto

25 años de investigación en el espacio

Un estudio de usuario que evalúa las explicaciones argumentativas en el soporte de decisiones de diagnóstico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido