Resumen:Aprender una representación compacta de la historia es fundamental para la planificación y la generalización en entornos parcialmente observables. Si bien los agentes de metaaprendizaje por refuerzo (RL) pueden lograr políticas cercanas a las óptimas de Bayes, a menudo no logran aprender los estados de creencia compactos e interpretables de Bayes óptimos. Esta ineficiencia representacional limita potencialmente la adaptabilidad y la capacidad de generalización del agente. Inspirándonos en la codificación predictiva en neurociencia, que sugiere que el cerebro predice entradas sensoriales como una implementación neuronal de la inferencia bayesiana, y en objetivos predictivos auxiliares en RL profundo, investigamos si la integración de módulos de codificación predictiva autosupervisados en meta-RL puede facilitar el aprendizaje de representaciones óptimas de Bayes. A través de la simulación de la máquina de estados, mostramos que el meta-RL con módulos predictivos genera consistentemente representaciones más interpretables que se aproximan mejor a los estados de creencias óptimos de Bayes en comparación con el meta-RL convencional en una amplia variedad de tareas, incluso cuando ambos logran políticas óptimas. En tareas desafiantes que requieren una búsqueda activa de información, solo el meta-RL con módulos predictivos aprende con éxito representaciones y políticas óptimas, mientras que el meta-RL convencional lucha con un aprendizaje de representación inadecuado. Finalmente, demostramos que un mejor aprendizaje de representación conduce a una mejor generalización. Nuestros resultados sugieren fuertemente el papel del aprendizaje predictivo como principio rector para el aprendizaje de representación efectivo en agentes que navegan por la observabilidad parcial.
Publicado originalmente en export.arxiv.org el 27 de octubre de 2025.
Ver fuente original
