Cerrando la brecha entre los modelos de fundación multimodal y los modelos mundiales

Resumen: Los humanos comprenden el mundo a través de la integración de múltiples modalidades sensoriales, lo que les permite percibir, razonar e imaginar procesos físicos dinámicos. Inspirados por esta capacidad, los modelos básicos multimodales (MFM) han surgido como herramientas poderosas para la comprensión y generación multimodal. Sin embargo, las máquinas multifuncionales actuales no llegan a servir como modelos mundiales eficaces. Carecen de la capacidad esencial como realizar razonamiento contrafactual, simular dinámicas, comprender la información espaciotemporal, controlar los resultados visuales generados y realizar razonamiento multifacético. Investigamos qué se necesita para cerrar la brecha entre los modelos de base multimodal y los modelos mundiales. Comenzamos mejorando las capacidades de razonamiento de los MFM a través de tareas discriminativas y equipándolos con habilidades de razonamiento estructurado, como inferencia causal, pensamiento contrafactual y razonamiento espaciotemporal, lo que les permite ir más allá de las correlaciones superficiales y comprender relaciones más profundas dentro de los datos visuales y textuales. A continuación, exploramos las capacidades generativas de los modelos básicos multimodales en modalidades de imagen y video, introduciendo nuevos marcos para la generación estructurada y controlable. Nuestros enfoques incorporan gráficos de escena, condicionamiento multimodal y estrategias de alineación multimodal para guiar el proceso de generación, garantizando coherencia con la semántica de alto nivel y la intención detallada del usuario. Ampliamos aún más estas técnicas a la generación 4D controlable, permitiendo la síntesis de objetos interactivos, editables y transformables en el tiempo y el espacio.

Publicado originalmente en export.arxiv.org el 6 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Intel actualiza el empaque de chips para una IA más grande

El autoaccesivo privilegiado es importante para la introspección en AI

Oculto a la vista: sondeo de razonamiento implícito en modelos de lenguaje multimodal

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido