En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Reforzar la frontera del mundo: un problema de aprendizaje continuo en la frontera del mundo de múltiples agentes

Reforzar la frontera del mundo: un problema de aprendizaje continuo en la frontera del mundo de múltiples agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La estructura de decisión reutilizable sobrevive a lo largo de los episodios del aprendizaje por refuerzo, pero esto depende de cómo se traza el límite entre el agente y el mundo. En los MDP estacionarios de horizonte finito, se puede construir un núcleo invariante: las subsecuencias (no necesariamente contiguas) de pares estado-acción compartidos por todas las trayectorias exitosas (opcionalmente bajo una abstracción simple). Bajo supuestos leves condicionados por objetivos, su existencia puede probarse y explicarse por cómo el núcleo captura prototipos que se transfieren a través de episodios. Cuando la misma tarea está incorporada en un juego de Markov descentralizado y el agente par se incorpora al mundo, cada actualización de la política de pares induce un nuevo MDP; el núcleo invariante por episodio puede reducirse o desaparecer, incluso con pequeños cambios en la dinámica mundial inducida, dejando a veces solo el núcleo de la tarea individual o simplemente nada. Esta no estacionariedad inducida por políticas se puede cuantificar con un presupuesto de variación sobre los núcleos y las recompensas inducidas, vinculando la deriva de los límites con la pérdida de invariantes. La opinión de que un problema continuo de RL surge de la inestabilidad del límite agente-mundo (en lugar de cambios de tareas exógenas) en MARL descentralizado sugiere un trabajo futuro para preservar, predecir o gestionar de otro modo la deriva de los límites.

Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web