Resumen: Un desafío importante en la implementación de modelos mundiales es la compensación entre tamaño y rendimiento. Los grandes modelos mundiales pueden capturar una dinámica física rica, pero requieren recursos informáticos masivos, haciéndolos poco prácticos para los dispositivos de borde. Los modelos mundiales pequeños son más fáciles de desplegar, pero a menudo tienen dificultades para aprender física precisa, lo que lleva a malas predicciones. Proponemos el Modelo BEV World informado por física (PIWM), un modelo compacto diseñado para capturar interacciones físicas de manera eficiente en representaciones de visión de ojo de aves (BEV). PIWM utiliza una máscara suave durante el entrenamiento para mejorar el modelado de objetos dinámicos y la predicción futura. También presentamos una técnica simple pero efectiva, un comienzo cálido, para la inferencia para mejorar la calidad de la predicción con un modelo de disparo cero. Los experimentos muestran que en la misma escala de parámetros (400 m), PIWM supera la línea de base en un 60,6% en puntaje general ponderado. Además, incluso cuando se compara con el modelo de referencia más grande (400 m), el PIWM más pequeño (máscara blanda de 130 m) logra una puntuación general ponderada 7.4% mayor con una velocidad de inferencia más rápida del 28%.
Publicado Originalme en export.arxiv.org El 16 de septiembre de 2025.
Ver Fuente Original