Reforzar la frontera del mundo: un problema de aprendizaje continuo en la frontera del mundo de múltiples agentes

Resumen: La estructura de decisión reutilizable sobrevive a lo largo de los episodios del aprendizaje por refuerzo, pero esto depende de cómo se traza el límite entre el agente y el mundo. En los MDP estacionarios de horizonte finito, se puede construir un núcleo invariante: las subsecuencias (no necesariamente contiguas) de pares estado-acción compartidos por todas las trayectorias exitosas (opcionalmente bajo una abstracción simple). Bajo supuestos leves condicionados por objetivos, su existencia puede probarse y explicarse por cómo el núcleo captura prototipos que se transfieren a través de episodios. Cuando la misma tarea está incorporada en un juego de Markov descentralizado y el agente par se incorpora al mundo, cada actualización de la política de pares induce un nuevo MDP; el núcleo invariante por episodio puede reducirse o desaparecer, incluso con pequeños cambios en la dinámica mundial inducida, dejando a veces solo el núcleo de la tarea individual o simplemente nada. Esta no estacionariedad inducida por políticas se puede cuantificar con un presupuesto de variación sobre los núcleos y las recompensas inducidas, vinculando la deriva de los límites con la pérdida de invariantes. La opinión de que un problema continuo de RL surge de la inestabilidad del límite agente-mundo (en lugar de cambios de tareas exógenas) en MARL descentralizado sugiere un trabajo futuro para preservar, predecir o gestionar de otro modo la deriva de los límites.

Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La Fundación Linux lanza la Alianza Abierta y Robusta de Compartimentación (ORCA) para promover la seguridad del software

La IA mantiene una mayor tensión estratégica que los humanos en el ajedrez

Taco: Repensar las comunicaciones semánticas con la adaptación de la tarea y el contexto integrado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido