Resumen: Para permitir que los agentes encarnados operen eficazmente durante períodos de tiempo prolongados, es crucial desarrollar modelos que formen recuerdos y accedan a ellos para permanecer contextualizados en su entorno. En el paradigma actual de entrenar políticas basadas en transformadores para tareas de toma de decisiones secuenciales incorporadas, las entradas visuales a menudo superan los límites del contexto de los transformadores, mientras que los humanos pueden mantener y utilizar toda una vida de experiencias comprimidas como recuerdos. En principio, es posible una compresión significativa, ya que gran parte de la entrada es irrelevante y puede abstraerse. Sin embargo, los enfoques existentes se centran predominantemente en modelos recurrentes con memoria de tamaño fijo o transformadores con dependencia de contexto total. En este trabajo, proponemos Memo, una arquitectura basada en transformadores y una receta de entrenamiento para el aprendizaje por refuerzo (RL) en tareas de largo horizonte que requieren mucha memoria. Memo incorpora la creación y recuperación de memoria entrelazando tokens de resumen periódicos con las entradas de un modelo durante el entrenamiento. Demostramos la efectividad de Memo en un punto de referencia meta-RL de gridworld y una tarea de navegación de múltiples objetos en entornos interiores fotorrealistas. Memo supera las ingenuas líneas base de transformadores de contexto largo y, al mismo tiempo, es más eficiente en computación y almacenamiento. Además, Memo se generaliza mejor a contextos más largos en el momento de la inferencia y sigue siendo sólido en entornos de transmisión, donde el contexto histórico debe truncarse para ajustarse a las restricciones de inferencia.
Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original
