Resumen: La estructura de decisión reutilizable sobrevive a lo largo de los episodios del aprendizaje por refuerzo, pero esto depende de cómo se traza el límite entre el agente y el mundo. En los MDP estacionarios de horizonte finito, se puede construir un núcleo invariante: las subsecuencias (no necesariamente contiguas) de pares estado-acción compartidos por todas las trayectorias exitosas (opcionalmente bajo una abstracción simple). Bajo supuestos leves condicionados por objetivos, su existencia puede probarse y explicarse por cómo el núcleo captura prototipos que se transfieren a través de episodios. Cuando la misma tarea está incorporada en un juego de Markov descentralizado y el agente par se incorpora al mundo, cada actualización de la política de pares induce un nuevo MDP; el núcleo invariante por episodio puede reducirse o desaparecer, incluso con pequeños cambios en la dinámica mundial inducida, dejando a veces solo el núcleo de la tarea individual o simplemente nada. Esta no estacionariedad inducida por políticas se puede cuantificar con un presupuesto de variación sobre los núcleos y las recompensas inducidas, vinculando la deriva de los límites con la pérdida de invariantes. La opinión de que un problema continuo de RL surge de la inestabilidad del límite agente-mundo (en lugar de cambios de tareas exógenas) en MARL descentralizado sugiere un trabajo futuro para preservar, predecir o gestionar de otro modo la deriva de los límites.
Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original
