Planqa: un punto de referencia para el razonamiento espacial en LLM utilizando representaciones estructuradas

Resumen: Introducimos a PlanQA, un punto de referencia de diagnóstico para evaluar el razonamiento geométrico y espacial en modelos de gran lenguaje (LLM). Planqa se basa en representaciones estructuradas de escenas interiores, como cocinas, salas de estar y habitaciones, codificadas en un formato simbólico (por ejemplo, JSON, diseños XML). El punto de referencia incluye diversos tipos de preguntas que evalúan no solo el razonamiento métrico y topológico (por ejemplo, distancia, visibilidad, rutas más cortas) sino también limitaciones de diseño de interiores, como el permiso, la autorización, el equilibrio y la usabilidad. Nuestros resultados en una variedad de LLM de código abierto y comerciales fronterizos muestran que si bien los modelos pueden tener éxito en consultas poco profundas, a menudo no pueden simular restricciones físicas, preservar la coherencia espacial o generalizar bajo perturbación de diseño. Planqa descubre un punto ciego claro en las LLM de hoy: no razonan constantemente sobre los diseños del mundo real. Esperamos que este punto de referencia inspire un nuevo trabajo en modelos de idiomas que puedan inferir y manipular con precisión las propiedades espaciales y geométricas en entornos prácticos.

Publicado Originalme en export.arxiv.org El 10 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Domar al juez: eliminar los conflictos de la retroalimentación de la IA para un aprendizaje por refuerzo estable

SentinElagent: detección de anomalías basadas en gráficos en sistemas de múltiples agentes

Diseño de mejores productos con IA y sostenibilidad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido