Resumen:Un modelo mundial es un sistema de inteligencia artificial que simula cómo evoluciona un entorno bajo acciones, permitiendo la planificación a través de futuros imaginados en lugar de una percepción reactiva. Sin embargo, los modelos mundiales actuales adolecen de una combinación visual: la suposición errónea de que la generación de vídeo de alta fidelidad implica una comprensión de la dinámica física y causal. Mostramos que, si bien los modelos modernos se destacan en la predicción de píxeles, con frecuencia violan restricciones invariantes, fallan bajo intervención y fallan en la toma de decisiones críticas para la seguridad. Esta encuesta sostiene que el realismo visual es un indicador poco confiable para la comprensión del mundo. En cambio, los modelos mundiales eficaces deben codificar la estructura causal, respetar las limitaciones específicas de cada dominio y permanecer estables en horizontes prolongados. Proponemos un replanteamiento de los modelos mundiales como simuladores procesables en lugar de motores visuales, enfatizando interfaces 4D estructuradas, dinámicas conscientes de restricciones y evaluación de circuito cerrado. Utilizando la toma de decisiones médicas como una prueba de estrés epistémica, donde el ensayo y error es imposible y los errores son irreversibles, demostramos que el valor de un modelo mundial no está determinado por cuán realistas parezcan sus implementaciones, sino por su capacidad para respaldar el razonamiento contrafactual, la planificación de intervenciones y una previsión sólida a largo plazo.
Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original
