Resumen: Millones de registros de muestras biológicas recopilados en los últimos siglos archivados en las colecciones de historia natural no se gemanías. Las descripciones de localidad compleja de georreferenciación asociadas con estas muestras de colección son un trabajo de recolección de tareas altamente intensivo con el que luchan. Ninguno de los métodos automatizados existentes explota mapas que son una herramienta esencial para georferenciar relaciones complejas. Presentamos experimentos preliminares y resultados de un método novedoso que explota las capacidades multimodales de modelos multimodales grandes recientes (LMM). Este método permite que el modelo contextualice visualmente las relaciones espaciales que lee en la descripción de la localidad. Utilizamos un enfoque basado en la cuadrícula para adaptar estos modelos automáticos para esta tarea en una configuración de disparo cero. Nuestros experimentos realizados en un pequeño conjunto de datos anotado manualmente muestran resultados impresionantes para nuestro enfoque ($ sim $ 1 km error de distancia promedio) en comparación con la georreferenciación uni-modal con modelos de idiomas grandes y herramientas de georreferenciaciones existentes. El documento también analiza los hallazgos de los experimentos a la luz de la capacidad de un LMM para comprender mapas de grano fino. Motivado por estos resultados, se propone un marco práctico para integrar este método en un flujo de trabajo de georreferenciación.
Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original