En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Cerrando la brecha entre los modelos de fundación multimodal y los modelos mundiales

Cerrando la brecha entre los modelos de fundación multimodal y los modelos mundiales

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los humanos comprenden el mundo a través de la integración de múltiples modalidades sensoriales, lo que les permite percibir, razonar e imaginar procesos físicos dinámicos. Inspirados por esta capacidad, los modelos básicos multimodales (MFM) han surgido como herramientas poderosas para la comprensión y generación multimodal. Sin embargo, las máquinas multifuncionales actuales no llegan a servir como modelos mundiales eficaces. Carecen de la capacidad esencial como realizar razonamiento contrafactual, simular dinámicas, comprender la información espaciotemporal, controlar los resultados visuales generados y realizar razonamiento multifacético. Investigamos qué se necesita para cerrar la brecha entre los modelos de base multimodal y los modelos mundiales. Comenzamos mejorando las capacidades de razonamiento de los MFM a través de tareas discriminativas y equipándolos con habilidades de razonamiento estructurado, como inferencia causal, pensamiento contrafactual y razonamiento espaciotemporal, lo que les permite ir más allá de las correlaciones superficiales y comprender relaciones más profundas dentro de los datos visuales y textuales. A continuación, exploramos las capacidades generativas de los modelos básicos multimodales en modalidades de imagen y video, introduciendo nuevos marcos para la generación estructurada y controlable. Nuestros enfoques incorporan gráficos de escena, condicionamiento multimodal y estrategias de alineación multimodal para guiar el proceso de generación, garantizando coherencia con la semántica de alto nivel y la intención detallada del usuario. Ampliamos aún más estas técnicas a la generación 4D controlable, permitiendo la síntesis de objetos interactivos, editables y transformables en el tiempo y el espacio.

Publicado originalmente en export.arxiv.org el 6 de octubre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web