Resumen: Los agentes de uso de computadoras (CUA) están surgiendo como un nuevo paradigma en la interacción persona-computadora, permitiendo la ejecución autónoma de tareas en un entorno de escritorio mediante la percepción de instrucciones de lenguaje natural de alto nivel. A medida que dichos agentes se vuelven cada vez más capaces y se implementan en diversos entornos de escritorio, evaluar su comportamiento de manera escalable y confiable se convierte en un desafío crítico. Los procesos de evaluación existentes se basan en puntos de referencia estáticos, verificaciones de éxito basadas en reglas o inspecciones manuales, que son frágiles, costosas y mal alineadas con el uso en el mundo real. En este trabajo, estudiamos los modelos de visión-lenguaje (VLM) como auditores autónomos para evaluar la finalización de tareas CUA directamente a partir de interacciones observables y realizamos una metaevaluación a gran escala de cinco VLM que juzgan el éxito de la tarea dada una instrucción en lenguaje natural y el estado final del entorno. Nuestra evaluación abarca tres puntos de referencia CUA ampliamente utilizados en entornos macOS, Windows y Linux y analiza el comportamiento del auditor en tres dimensiones complementarias: precisión, calibración de estimaciones de confianza y acuerdo entre modelos. Descubrimos que, si bien los VLM de última generación logran una gran precisión y calibración, todos los auditores muestran una degradación notable del rendimiento en entornos más complejos o heterogéneos, e incluso los modelos de alto rendimiento muestran un desacuerdo significativo en sus juicios. Estos resultados exponen las limitaciones fundamentales de los enfoques actuales de auditoría basados en modelos y resaltan la necesidad de tener en cuenta explícitamente la confiabilidad, la incertidumbre y la variación del evaluador al implementar CUA autónomas en entornos del mundo real.
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
