Memo: Entrenamiento de agentes incorporados eficientes en la memoria con aprendizaje por refuerzo

Resumen: Para permitir que los agentes encarnados operen eficazmente durante períodos de tiempo prolongados, es crucial desarrollar modelos que formen recuerdos y accedan a ellos para permanecer contextualizados en su entorno. En el paradigma actual de entrenar políticas basadas en transformadores para tareas de toma de decisiones secuenciales incorporadas, las entradas visuales a menudo superan los límites del contexto de los transformadores, mientras que los humanos pueden mantener y utilizar toda una vida de experiencias comprimidas como recuerdos. En principio, es posible una compresión significativa, ya que gran parte de la entrada es irrelevante y puede abstraerse. Sin embargo, los enfoques existentes se centran predominantemente en modelos recurrentes con memoria de tamaño fijo o transformadores con dependencia de contexto total. En este trabajo, proponemos Memo, una arquitectura basada en transformadores y una receta de entrenamiento para el aprendizaje por refuerzo (RL) en tareas de largo horizonte que requieren mucha memoria. Memo incorpora la creación y recuperación de memoria entrelazando tokens de resumen periódicos con las entradas de un modelo durante el entrenamiento. Demostramos la efectividad de Memo en un punto de referencia meta-RL de gridworld y una tarea de navegación de múltiples objetos en entornos interiores fotorrealistas. Memo supera las ingenuas líneas base de transformadores de contexto largo y, al mismo tiempo, es más eficiente en computación y almacenamiento. Además, Memo se generaliza mejor a contextos más largos en el momento de la inferencia y sigue siendo sólido en entornos de transmisión, donde el contexto histórico debe truncarse para ajustarse a las restricciones de inferencia.

Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

India todavía está trabajando en robots de alcantarillado

OSC: Orquestación cognitiva a través de la alineación de conocimiento dinámico en la colaboración de Multi-Agent LLM

La descarga: los planes de poder de IA de California, y por qué es tan difícil hacer que el bienestar ai sea justo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido