Cuando las recompensas adaptativas duelen: sondeo causal y el dilema de la estabilidad de la conmutación en la programación de satélites LEO guiada por un LLM

Resumen: El diseño de recompensa adaptativa para el aprendizaje por refuerzo profundo (DRL) en la programación de satélites LEO de haces múltiples está motivado por la intuición de que las ponderaciones de recompensa conscientes del régimen deberían superar a las estáticas. Probamos sistemáticamente esta intuición y descubrimos un dilema de estabilidad de conmutación: los pesos de recompensa casi constantes (342,1 Mbps) superan los pesos dinámicos cuidadosamente ajustados (103,3+/-96,8 Mbps) porque PPO requiere una señal de recompensa cuasestacionaria para la convergencia de la función de valor. La adaptación del peso, independientemente de la calidad, degrada el rendimiento al reiniciar repetidamente la convergencia. Para comprender por qué son importantes los pesos específicos, introducimos un método de sondeo causal de una sola variable que perturba de forma independiente cada término de recompensa en +/-20% y mide la respuesta de PPO después de 50.000 pasos. El sondeo revela un apalancamiento contrario a la intuición: un aumento de +20% en la penalización por conmutación produce +157 Mbps para traspaso polar y +130 Mbps para regímenes frío-calor, hallazgos inaccesibles para expertos humanos o MLP capacitados sin un sondeo sistemático. Evaluamos cuatro variantes del arquitecto MDP (MLP fijo, basado en reglas, aprendido, LLM ajustado) en regímenes de tráfico conocidos y novedosos. El MLP alcanza 357,9 Mbps en regímenes conocidos y 325,2 Mbps en regímenes novedosos, mientras que el LLM ajustado colapsa a 45,3+/-43,0 Mbps debido a la oscilación del peso en lugar de a la falta de coherencia en la producción de conocimiento del dominio, no el conocimiento, es la restricción vinculante. Nuestros hallazgos proporcionan una hoja de ruta con base empírica para la integración LLM-DRL en sistemas de comunicación, identificando dónde los LLM agregan valor irremplazable (comprensión de la intención del lenguaje natural) versus dónde son suficientes métodos más simples.

Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Descubrimiento causal descentralizado mediante cálculo de judo

¡Reserva la fecha para la próxima edición de la EIC Summit!

PREFINE: Generación de historias personalizadas mediante críticas de usuarios simuladas y generación de rúbricas específicas del usuario

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido