Resumen: Los modelos de mundos de vídeo han demostrado ser inmensamente prometedores para la simulación y el entretenimiento interactivos, pero los sistemas actuales todavía luchan con dos aspectos importantes de la interactividad: el control del usuario sobre el entorno para experiencias reproducibles y editables, y la inferencia compartida donde los jugadores tienen influencia sobre un mundo común. Para abordar estas limitaciones, introducimos una memoria externa explícita en el sistema, un estado persistente que opera independientemente de la ventana de contexto del modelo, que se actualiza continuamente mediante las acciones del usuario y se consulta durante la implementación de la generación. A diferencia de los motores de juegos de difusión convencionales que operan como predictores del siguiente cuadro, nuestro enfoque descompone la generación en módulos de Memoria, Observación y Dinámica. Este diseño brinda a los usuarios un control directo y editable sobre la estructura del entorno a través de una representación de memoria editable y, naturalmente, se extiende a implementaciones multijugador en tiempo real con puntos de vista coherentes e interacciones consistentes entre jugadores.
Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original
