Resumen: Este documento investiga un problema de diseño de fase conjunta y asignación de recursos en el enlace descendente de la superficie inteligente reconfigurable (RIS), los sistemas de multiplexación de división de frecuencia ortogonal (OFDM) para optimizar el retraso promedio, donde los paquetes de datos para cada usuario llegan a la estación base estocásticamente. El problema de optimización secuencial es inherentemente un proceso de decisión de Markov (MDP), lo que hace que esté dentro del alcance del aprendizaje de refuerzo. Para manejar efectivamente el espacio de acción mixta y reducir la dimensionalidad del espacio de estado, se propone un enfoque de aprendizaje de refuerzo profundo híbrido (DRL). Específicamente, la optimización de la política proximal (PPO)-$ theta $ se emplea para optimizar el diseño de cambio de fase RIS, mientras que PPO-N es responsable de las decisiones de asignación de subportadoras. Para mitigar aún más la maldición de la dimensionalidad asociada con la asignación de subportiers, se introduce una estrategia de múltiples agentes para optimizar el indicador de asignación de subportiers de manera más eficiente. Además, para lograr una asignación de recursos más adaptativa y capturar con precisión la dinámica de la red, los factores clave estrechamente relacionados con el retraso promedio, incluido el número de paquetes atrasados en buffers y las llegadas de paquetes actuales, se incorporan al espacio de estado. Además, se introduce un marco de aprendizaje de transferencia para mejorar la eficiencia de la capacitación y acelerar la convergencia. Los resultados de la simulación demuestran que el algoritmo propuesto reduce significativamente el retraso promedio, mejora la eficiencia de asignación de recursos y logra la robustez y la equidad del sistema superior en comparación con los métodos de referencia.
Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original