En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Planqa: un punto de referencia para el razonamiento espacial en LLM utilizando representaciones estructuradas

Planqa: un punto de referencia para el razonamiento espacial en LLM utilizando representaciones estructuradas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Introducimos a PlanQA, un punto de referencia de diagnóstico para evaluar el razonamiento geométrico y espacial en modelos de gran lenguaje (LLM). Planqa se basa en representaciones estructuradas de escenas interiores, como cocinas, salas de estar y habitaciones, codificadas en un formato simbólico (por ejemplo, JSON, diseños XML). El punto de referencia incluye diversos tipos de preguntas que evalúan no solo el razonamiento métrico y topológico (por ejemplo, distancia, visibilidad, rutas más cortas) sino también limitaciones de diseño de interiores, como el permiso, la autorización, el equilibrio y la usabilidad. Nuestros resultados en una variedad de LLM de código abierto y comerciales fronterizos muestran que si bien los modelos pueden tener éxito en consultas poco profundas, a menudo no pueden simular restricciones físicas, preservar la coherencia espacial o generalizar bajo perturbación de diseño. Planqa descubre un punto ciego claro en las LLM de hoy: no razonan constantemente sobre los diseños del mundo real. Esperamos que este punto de referencia inspire un nuevo trabajo en modelos de idiomas que puedan inferir y manipular con precisión las propiedades espaciales y geométricas en entornos prácticos.

Publicado Originalme en export.arxiv.org El 10 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web