Resumen: Introducimos Blueprint Bench, un punto de referencia diseñado para evaluar las capacidades de razonamiento espacial en los modelos de IA a través de la tarea de convertir fotografías de apartamentos en planos de planta 2D precisos. Si bien la modalidad de entrada (fotografías) está dentro de la distribución de entrenamiento de modelos multimodales modernos, la tarea de la reconstrucción espacial requiere inteligencia espacial genuina: inferir diseños de habitaciones, comprender la conectividad y mantener una escala consistente. Evaluamos modelos de idiomas líderes (GPT-5, Claude 4 Opus, Gemini 2.5 Pro, Grok-4), modelos de generación de imágenes (GPT-Image, Nanobanana) y sistemas de agentes (Codex CLI, Claude Code) en un conjunto de datos de 50 apartamentos con aproximadamente 20 imágenes interiores cada una. Nuestro algoritmo de puntuación mide la similitud entre los planos de planta generados y de verdad en tierra basados en gráficos de conectividad de la habitación y clasificaciones de tamaño. Los resultados revelan un punto ciego significativo en las capacidades actuales de IA: la mayoría de los modelos funcionan en o por debajo de una línea de base aleatoria, mientras que el rendimiento humano sigue siendo sustancialmente superior. Los modelos de generación de imágenes particularmente luchan con la instrucción siguiente, mientras que los enfoques basados en agentes con capacidades de refinamiento iterativas no muestran una mejora significativa sobre la generación de paso único. BluePrint Bench proporciona el primer marco numérico para comparar la inteligencia espacial con diferentes arquitecturas de modelos. Continuaremos evaluando nuevos modelos a medida que se publiquen y dan la bienvenida a las presentaciones de la comunidad, monitoreando la aparición de inteligencia espacial en los sistemas de IA generalistas.
Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original
