Resumen:Este artículo desarrolla una explicación formal de lo que los agentes generalistas deben almacenar en la memoria para actuar de manera casi óptima en múltiples entornos y objetivos. Muestra que cuando dos dominios comparten un cuello de botella observacional pero requieren acciones óptimas incompatibles, cualquier política uniformemente casi óptima debe inducir distribuciones de memoria distintas en ese cuello de botella. El resultado produce un teorema de separación: los agentes suficientemente exitosos no pueden confiar únicamente en las observaciones del estado actual, sino que deben preservar en la memoria la información relevante para el dominio. El artículo muestra además que si la memoria de un agente contiene suficiente información para estimar valores para objetivos relacionados, entonces esa memoria se puede utilizar para reconstruir aproximadamente la dinámica de transición local del agente. En conjunto, estos resultados caracterizan la memoria como el sustrato que respalda la desambiguación de dominios, la reconstrucción del modelo de transición y la planificación para agentes generalistas.
Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original
