MobileWorldBench: hacia el modelado del mundo semántico para agentes móviles

Resumen: Los modelos mundiales han demostrado una gran utilidad para mejorar el desempeño de tareas de agentes encarnados. Si bien el trabajo anterior se centra principalmente en modelos mundiales de espacio de píxeles, estos enfoques enfrentan limitaciones prácticas en entornos de GUI, donde a menudo es difícil predecir elementos visuales complejos en estados futuros. En este trabajo, exploramos una formulación alternativa de modelado mundial para agentes GUI, donde las transiciones de estado se describen en lenguaje natural en lugar de predecir píxeles sin procesar. Primero, presentamos MobileWorldBench, un punto de referencia que evalúa la capacidad de los modelos de visión y lenguaje (VLM) para funcionar como modelos mundiales para agentes GUI móviles. En segundo lugar, lanzamos MobileWorld, un conjunto de datos a gran escala que consta de 1,4 millones de muestras, que mejora significativamente las capacidades de modelado mundial de los VLM. Finalmente, proponemos un marco novedoso que integra los modelos mundiales VLM en el marco de planificación de los agentes móviles, demostrando que los modelos del mundo semántico pueden beneficiar directamente a los agentes móviles al mejorar las tasas de éxito de las tareas. El código y el conjunto de datos están disponibles en esta URL https

Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cantidad: un punto de referencia para verificar la viabilidad de las afirmaciones respaldadas por la literatura en la ciencia de los materiales

SENTINEL: un marco formal multinivel para la evaluación de la seguridad de agentes incorporados basados ​​en LLM

Modelos de idiomas grandes y sus aplicaciones en la seguridad de las carreteras y la mejora de la movilidad: una revisión integral

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

SENTINEL: un marco formal multinivel para la evaluación de la seguridad de agentes incorporados basados en LLM