Resumen: Introducimos a PlanQA, un punto de referencia de diagnóstico para evaluar el razonamiento geométrico y espacial en modelos de gran lenguaje (LLM). Planqa se basa en representaciones estructuradas de escenas interiores, como cocinas, salas de estar y habitaciones, codificadas en un formato simbólico (por ejemplo, JSON, diseños XML). El punto de referencia incluye diversos tipos de preguntas que evalúan no solo el razonamiento métrico y topológico (por ejemplo, distancia, visibilidad, rutas más cortas) sino también limitaciones de diseño de interiores, como el permiso, la autorización, el equilibrio y la usabilidad. Nuestros resultados en una variedad de LLM de código abierto y comerciales fronterizos muestran que si bien los modelos pueden tener éxito en consultas poco profundas, a menudo no pueden simular restricciones físicas, preservar la coherencia espacial o generalizar bajo perturbación de diseño. Planqa descubre un punto ciego claro en las LLM de hoy: no razonan constantemente sobre los diseños del mundo real. Esperamos que este punto de referencia inspire un nuevo trabajo en modelos de idiomas que puedan inferir y manipular con precisión las propiedades espaciales y geométricas en entornos prácticos.
Publicado Originalme en export.arxiv.org El 10 de julio de 2025.
Ver Fuente Original