En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Jigsaw-Puzzles: desde ver hasta la comprensión hasta el razonamiento en los modelos en idioma de la visión

Jigsaw-Puzzles: desde ver hasta la comprensión hasta el razonamiento en los modelos en idioma de la visión

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El razonamiento espacial es un componente central de la cognición humana, que permite a los individuos percibir, comprender e interactuar con el mundo físico. Se basa en una comprensión matizada de las estructuras espaciales y las relaciones entre objetivos, que sirven como base para el razonamiento y la toma de decisiones complejas. Para investigar si los modelos actuales del idioma de visión (VLMS) exhiben una capacidad similar, introducimos los hojas de rompecabezas, un nuevo punto de referencia que consta de 1.100 imágenes cuidadosamente seleccionadas del mundo real con alta complejidad espacial. Con base en este conjunto de datos, diseñamos cinco tareas para evaluar rigurosamente la percepción espacial de VLMS, la comprensión estructural y las capacidades de razonamiento, al tiempo que minimizamos deliberadamente la dependencia del conocimiento específico del dominio para aislar y evaluar mejor la capacidad de razonamiento espacial general. Llevamos a cabo una evaluación integral en 24 VLM de última generación. Los resultados muestran que incluso el modelo más fuerte, Gemini-2.5-Pro, logra solo el 77.14% de precisión general y funciona particularmente mal en la tarea de generación de pedidos, con solo un 30.00% de precisión, muy por debajo del rendimiento superior al 90% alcanzado por los participantes humanos. Esta brecha persistente subraya la necesidad de un progreso continuo, posicionando los hojas de rompecabezas como un punto de referencia desafiante y de diagnóstico para avanzar en la investigación de razonamiento espacial en VLM.

Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web