Resumen: A medida que la generación de datos de observación de la Tierra supera el ancho de banda del enlace descendente y el procesamiento humano, ha surgido una brecha cada vez mayor entre la recopilación a bordo y la inteligencia terrestre procesable. Este artículo presenta NAVI-Orbital, un sistema de software implementado en una nave espacial de órbita terrestre baja (LEO). El 16 de abril de 2026, NAVI-Orbital logró lo que es, hasta donde saben los autores, la primera demostración en órbita de un modelo de visión y lenguaje que realiza inferencia multimodal autónoma completamente a bordo. NAVI-Orbital utiliza un modelo de lenguaje de visión local (Gemma 3) para clasificar cada escena capturada, producir una descripción de texto de su contenido y las relaciones entre sus características y responder al seguimiento del operador a través de un diálogo en lenguaje natural. El sistema se reasigna a través de indicaciones en inglés sencillo en lugar de secuencias de comandos convencionales, y está orquestado por una máquina de estado basada en gráficos (LangGraph) que coordina agentes dedicados para la detección y el diálogo. Los resultados de las evaluaciones comparativas terrestres (88,16 % de precisión en las 7.960 imágenes seleccionadas de la prueba comparativa AID), la validación de Flatsat y las capturas en vivo en órbita de imágenes de la Tierra recién adquiridas y nunca antes vistas (incluidas imágenes YAM-9 no corregidas, procesadas a bordo con inferencia GPU acelerada por hardware y sin ajuste fino para el instrumento de vuelo) demuestran la viabilidad de ejecutar modelos básicos en computadoras de vanguardia de clase satélite para invertir el convencional. perfil de ancho de banda de adquisición y luego enlace descendente de todo mediante la compresión semántica de observaciones de la Tierra en órbita.
Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original
