Resumen: Los modelos mundiales han demostrado una gran utilidad para mejorar el desempeño de tareas de agentes encarnados. Si bien el trabajo anterior se centra principalmente en modelos mundiales de espacio de píxeles, estos enfoques enfrentan limitaciones prácticas en entornos de GUI, donde a menudo es difícil predecir elementos visuales complejos en estados futuros. En este trabajo, exploramos una formulación alternativa de modelado mundial para agentes GUI, donde las transiciones de estado se describen en lenguaje natural en lugar de predecir píxeles sin procesar. Primero, presentamos MobileWorldBench, un punto de referencia que evalúa la capacidad de los modelos de visión y lenguaje (VLM) para funcionar como modelos mundiales para agentes GUI móviles. En segundo lugar, lanzamos MobileWorld, un conjunto de datos a gran escala que consta de 1,4 millones de muestras, que mejora significativamente las capacidades de modelado mundial de los VLM. Finalmente, proponemos un marco novedoso que integra los modelos mundiales VLM en el marco de planificación de los agentes móviles, demostrando que los modelos del mundo semántico pueden beneficiar directamente a los agentes móviles al mejorar las tasas de éxito de las tareas. El código y el conjunto de datos están disponibles en esta URL https
Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original
