En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->LocationAgent: un agente jerárquico para la geolocalización de imágenes mediante estrategia de desacoplamiento y evidencia del conocimiento paramétrico

LocationAgent: un agente jerárquico para la geolocalización de imágenes mediante estrategia de desacoplamiento y evidencia del conocimiento paramétrico

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La geolocalización de imágenes tiene como objetivo inferir ubicaciones de captura en función del contenido visual. Fundamentalmente, esto constituye un proceso de razonamiento compuesto de textit{ciclos de hipótesis-verificación}, que requiere que los modelos posean capacidades de razonamiento geoespacial y la capacidad de verificar evidencia contra hechos geográficos. Los métodos existentes normalmente internalizan el conocimiento de la ubicación y los patrones de razonamiento en la memoria estática mediante entrenamiento supervisado o ajuste de refuerzo basado en trayectorias. En consecuencia, estos métodos son propensos a alucinaciones objetivas y cuellos de botella de generalización en entornos de mundo abierto o escenarios que requieren conocimiento dinámico. Para abordar estos desafíos, proponemos un Agente de localización jerárquico, llamado LocationAgent. Nuestra filosofía central es conservar la lógica de razonamiento jerárquico dentro del modelo y al mismo tiempo descargar la verificación de la evidencia geográfica a herramientas externas. Para implementar el razonamiento jerárquico, diseñamos la arquitectura RER (Reasoner-Executor-Recorder), que emplea separación de roles y compresión de contexto para evitar el problema de deriva en el razonamiento de varios pasos. Para la verificación de evidencia, construimos un conjunto de herramientas de exploración de pistas que brindan evidencia diversa para respaldar el razonamiento de ubicación. Además, para abordar la fuga de datos y la escasez de datos chinos en los conjuntos de datos existentes, presentamos CCL-Bench (China City Location Bench), un punto de referencia de geolocalización de imágenes que abarca varias granularidades de escena y niveles de dificultad. Amplios experimentos demuestran que LocationAgent supera significativamente a los métodos existentes en al menos un 30% en entornos de disparo cero.

Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web