En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Control adaptativo de división de RAN a través de agentes de autoajuste sin recompensas

Control adaptativo de división de RAN a través de agentes de autoajuste sin recompensas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La integración de modelos de IA generativa en sistemas de red nativos de IA ofrece un camino transformador hacia lograr un control autónomo y adaptativo. Sin embargo, la aplicación de tales modelos a tareas de control continuo se ve impedida por limitaciones arquitectónicas intrínsecas, incluidas ventanas de contexto finitas, la falta de señales de recompensa explícitas y la degradación del contexto largo. Este artículo postula que la clave para desbloquear un control continuo sólido es permitir a los agentes internalizar la experiencia reduciéndola a sus parámetros, en lugar de depender de la memoria basada en indicaciones. Con este fin, proponemos un novedoso marco de autoajuste que permite a los sistemas agentes aprender continuamente a través de la interacción directa con el entorno, evitando la necesidad de recompensas artesanales. Nuestro marco implementa un mecanismo de reflexión biperspectiva que genera retroalimentación lingüística autónoma para construir conjuntos de datos de preferencias a partir del historial de interacciones. Un proceso de ajuste posterior basado en preferencias destila experiencias de largo plazo en los parámetros del modelo. Evaluamos nuestro enfoque en una tarea dinámica de corte de la Red de Acceso Radio (RAN), un desafiante problema de control multiobjetivo que requiere la resolución de compensaciones agudas entre la eficiencia del espectro, la calidad del servicio y la estabilidad de la reconfiguración en condiciones de red volátiles. Los resultados experimentales muestran que nuestro marco supera las líneas de base estándar de aprendizaje por refuerzo (RL) y los agentes existentes basados ​​en el modelo de lenguaje grande (LLM) en eficiencia de muestra, estabilidad y optimización multimétrica. Estos hallazgos demuestran el potencial de los agentes generativos que se mejoran a sí mismos para tareas de control continuo, allanando el camino para una futura infraestructura de red nativa de IA.

Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web