Resumen: Los modelos de lenguajes grandes (LLM) se implementan cada vez más en aplicaciones que interactúan con el mundo físico, como la navegación, la robótica o la cartografía, lo que hace que el razonamiento geoespacial sólido sea una capacidad crítica. A pesar de eso, la capacidad de los LLM para razonar sobre las coordenadas GPS y la geografía del mundo real sigue sin explorarse. Presentamos GPSBench, un conjunto de datos de 57,800 muestras en 17 tareas para evaluar el razonamiento geoespacial en LLM, que abarca operaciones de coordenadas geométricas (por ejemplo, cálculo de distancia y rumbo) y razonamiento que integra coordenadas con el conocimiento mundial. Centrándonos en las capacidades intrínsecas del modelo en lugar del uso de herramientas, evaluamos 14 LLM de última generación y descubrimos que el razonamiento GPS sigue siendo un desafío, con una variación sustancial entre las tareas: los modelos son generalmente más confiables en el razonamiento geográfico del mundo real que en los cálculos geométricos. El conocimiento geográfico se degrada jerárquicamente, con un desempeño sólido a nivel de país pero una localización débil a nivel de ciudad, mientras que la solidez para coordinar el ruido sugiere una comprensión genuina de las coordenadas en lugar de una memorización. Además, mostramos que el aumento de las coordenadas GPS puede mejorar en tareas geoespaciales posteriores, y que el ajuste fino induce compensaciones entre las ganancias en el cálculo geométrico y la degradación del conocimiento mundial. Nuestro conjunto de datos y código reproducible están disponibles en esta URL https
Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original
