GPSBench: ¿Los modelos de lenguajes grandes entienden las coordenadas GPS?

Resumen: Los modelos de lenguajes grandes (LLM) se implementan cada vez más en aplicaciones que interactúan con el mundo físico, como la navegación, la robótica o la cartografía, lo que hace que el razonamiento geoespacial sólido sea una capacidad crítica. A pesar de eso, la capacidad de los LLM para razonar sobre las coordenadas GPS y la geografía del mundo real sigue sin explorarse. Presentamos GPSBench, un conjunto de datos de 57,800 muestras en 17 tareas para evaluar el razonamiento geoespacial en LLM, que abarca operaciones de coordenadas geométricas (por ejemplo, cálculo de distancia y rumbo) y razonamiento que integra coordenadas con el conocimiento mundial. Centrándonos en las capacidades intrínsecas del modelo en lugar del uso de herramientas, evaluamos 14 LLM de última generación y descubrimos que el razonamiento GPS sigue siendo un desafío, con una variación sustancial entre las tareas: los modelos son generalmente más confiables en el razonamiento geográfico del mundo real que en los cálculos geométricos. El conocimiento geográfico se degrada jerárquicamente, con un desempeño sólido a nivel de país pero una localización débil a nivel de ciudad, mientras que la solidez para coordinar el ruido sugiere una comprensión genuina de las coordenadas en lugar de una memorización. Además, mostramos que el aumento de las coordenadas GPS puede mejorar en tareas geoespaciales posteriores, y que el ajuste fino induce compensaciones entre las ganancias en el cálculo geométrico y la degradación del conocimiento mundial. Nuestro conjunto de datos y código reproducible están disponibles en esta URL https

Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: por qué los LLM son como extraterrestres y el futuro de los trasplantes de cabeza

La promesa y los límites de los LLM en la construcción de pruebas y sugerencias para problemas lógicos en sistemas de tutoría inteligente

Pensar en el pensamiento: el razonamiento inverso de Sage-Nano para modelos de idiomas conscientes de sí mismo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido