Aprendizaje de refuerzo de múltiples agentes para observación autónoma de tierra multisatélite: un estudio de caso realista

Resumen: El crecimiento exponencial de los satélites de órbita terrestre baja (LEO) ha revolucionado misiones de observación de la Tierra (EO), abordando los desafíos en el monitoreo climático, la gestión de desastres y más. Sin embargo, la coordinación autónoma en los sistemas de múltiples satélites sigue siendo un desafío fundamental. Los enfoques de optimización tradicionales luchan para manejar las demandas de toma de decisiones en tiempo real de misiones Dinamic EO, que requieren el uso del aprendizaje de refuerzo (RL) y el aprendizaje de refuerzo de múltiples agentes (MARL). En este documento, investigamos la planificación de misiones EO autónoma basada en RL modelando operaciones de un solo satélite y extendiéndose a constelaciones de múltiples satélites utilizando marcos Marl. Abordamos desafíos clave, incluidas las limitaciones de almacenamiento de energía y datos, incertidumbres en las observaciones satelitales y las complejidades de la coordinación descentralizada bajo observabilidad parcial. Al aprovechar un entorno de simulación satelital casi realista, evaluamos la estabilidad de la capacitación y el rendimiento de los algoritmos de marga de última generación, incluidos PPO, IPPO, MAPPO y HAPPO. Nuestros resultados demuestran que Marl puede equilibrar efectivamente las imágenes y la gestión de recursos al tiempo que aborda la no estacionaridad y recompensa la interdependencia en la coordinación multisatélite. Las ideas obtenidas de este estudio proporcionan una base para las operaciones satelitales autónomas, que ofrecen pautas prácticas para mejorar el aprendizaje de políticas en misiones EO descentralizadas.

Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Comprensión del mapa cartográfico de modelo multimodal grande para la georreferencia de la localidad textual

Razonamiento espacial bilateral sobre redes de calles: RAG basado en gráficos con representaciones espaciales cualitativas

¿Los agentes impulsados ​​por LLM tendrán un sesgo contra los humanos? Explorando la vulnerabilidad dependiente de las creencias

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

¿Los agentes impulsados por LLM tendrán un sesgo contra los humanos? Explorando la vulnerabilidad dependiente de las creencias