Resumen: Los problemas de Bongard (BPS) proporcionan un desafiante taller para el razonamiento visual abstracto (AVR), lo que requiere que los modelos identifiquen conceptos visuales de algunos ejemplos y los describan en el lenguaje natural. Los primeros puntos de referencia de BP presentaban dibujos sintéticos en blanco y negro, que podrían no capturar completamente la complejidad de las escenas del mundo real. Los conjuntos de datos de BP posteriores emplearon imágenes del mundo real, aunque los conceptos representados son identificables a partir de características de imagen de alto nivel, reduciendo la complejidad de la tarea. De manera diferente, el conjunto de datos Bongard-RWR recientemente lanzado destinado a representar conceptos abstractos formulados en los BP originales utilizando imágenes del mundo real de grano fino. Sin embargo, su construcción manual limitó el tamaño del conjunto de datos a solo $ 60 $ instancias, lo que limita la robustez de la evaluación. En este trabajo, presentamos Bongard-RWR+, un conjunto de datos BP compuesto por $ 5 , 400 $ instancias que representan conceptos abstractos de BP originales que utilizan imágenes de tipo de mundo real generadas a través de una tubería de modelo de lenguaje de visión (VLM). Sobre la base de Bongard-RWR, empleamos PixTral-12B para describir imágenes seleccionadas manualmente y generar nuevas descripciones alineadas con los conceptos subyacentes, usar Flux.1-DEV para sintetizar imágenes de estas descripciones, y verificar manualmente que las imágenes generadas reflejen fielmente los conceptos previstos. Evaluamos los VLM de vanguardia en diversas formulaciones de BP, incluida la clasificación binaria y multiclase, así como la generación de respuestas textuales. Nuestros hallazgos revelan que si bien los VLM pueden reconocer conceptos visuales de grano grueso, luchan constantemente con los conceptos de grano fino, destacando las limitaciones en sus capacidades de razonamiento.
Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original