Resumen: Los humanos comprenden el mundo a través de la integración de múltiples modalidades sensoriales, lo que les permite percibir, razonar e imaginar procesos físicos dinámicos. Inspirados por esta capacidad, los modelos básicos multimodales (MFM) han surgido como herramientas poderosas para la comprensión y generación multimodal. Sin embargo, las máquinas multifuncionales actuales no llegan a servir como modelos mundiales eficaces. Carecen de la capacidad esencial como realizar razonamiento contrafactual, simular dinámicas, comprender la información espaciotemporal, controlar los resultados visuales generados y realizar razonamiento multifacético. Investigamos qué se necesita para cerrar la brecha entre los modelos de base multimodal y los modelos mundiales. Comenzamos mejorando las capacidades de razonamiento de los MFM a través de tareas discriminativas y equipándolos con habilidades de razonamiento estructurado, como inferencia causal, pensamiento contrafactual y razonamiento espaciotemporal, lo que les permite ir más allá de las correlaciones superficiales y comprender relaciones más profundas dentro de los datos visuales y textuales. A continuación, exploramos las capacidades generativas de los modelos básicos multimodales en modalidades de imagen y video, introduciendo nuevos marcos para la generación estructurada y controlable. Nuestros enfoques incorporan gráficos de escena, condicionamiento multimodal y estrategias de alineación multimodal para guiar el proceso de generación, garantizando coherencia con la semántica de alto nivel y la intención detallada del usuario. Ampliamos aún más estas técnicas a la generación 4D controlable, permitiendo la síntesis de objetos interactivos, editables y transformables en el tiempo y el espacio.
Publicado originalmente en export.arxiv.org el 6 de octubre de 2025.
Ver Fuente Original