Resumen: Los agentes gráficos de la interfaz de usuario (GUI) muestran capacidades prometedoras para automatizar tareas de uso informático y facilitar la accesibilidad, pero los puntos de referencia interactivos existentes son en su mayoría solo en inglés, cubriendo entornos de uso web o Windows, Linux y Android, pero no MACO. MACOS es un sistema operativo importante con patrones de GUI distintivos y aplicaciones exclusivas. Para cerrar las brechas, presentamos a MacOSWorld, el primer punto de referencia integral para evaluar a los agentes de la GUI en MacOS. MacOSWorld presenta 202 tareas interactivas multilingües en 30 aplicaciones (28 exclusivos de MacOS), con instrucciones de tareas e interfaces SO ofrecidas en 5 idiomas (inglés, chino, árabe, japonés y ruso). Como se demuestra que los agentes de la GUI son vulnerables a los ataques de engaño, Macosworld también incluye un subconjunto de evaluación comparativa de seguridad dedicada. Nuestra evaluación en seis agentes de la GUI revela una brecha dramática: los agentes de uso informático propietario conducen a una tasa de éxito superior al 30%, mientras que los modelos de investigación livianos de código abierto se retrasan a menos del 2%, lo que destaca la necesidad de adaptación del dominio de macOS. Los puntos de referencia multilingües también exponen debilidades comunes, especialmente en árabe, con una degradación promedio del 27.5% en comparación con el inglés. Los resultados de la evaluación comparativa de seguridad también destacan que los ataques de engaño son más generales y exigen atención inmediata. Macosworld está disponible en esta URL HTTPS.
Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original