CUAAudit: Metaevaluación de modelos de visión-lenguaje como auditores de agentes autónomos de uso de computadoras

Resumen: Los agentes de uso de computadoras (CUA) están surgiendo como un nuevo paradigma en la interacción persona-computadora, permitiendo la ejecución autónoma de tareas en un entorno de escritorio mediante la percepción de instrucciones de lenguaje natural de alto nivel. A medida que dichos agentes se vuelven cada vez más capaces y se implementan en diversos entornos de escritorio, evaluar su comportamiento de manera escalable y confiable se convierte en un desafío crítico. Los procesos de evaluación existentes se basan en puntos de referencia estáticos, verificaciones de éxito basadas en reglas o inspecciones manuales, que son frágiles, costosas y mal alineadas con el uso en el mundo real. En este trabajo, estudiamos los modelos de visión-lenguaje (VLM) como auditores autónomos para evaluar la finalización de tareas CUA directamente a partir de interacciones observables y realizamos una metaevaluación a gran escala de cinco VLM que juzgan el éxito de la tarea dada una instrucción en lenguaje natural y el estado final del entorno. Nuestra evaluación abarca tres puntos de referencia CUA ampliamente utilizados en entornos macOS, Windows y Linux y analiza el comportamiento del auditor en tres dimensiones complementarias: precisión, calibración de estimaciones de confianza y acuerdo entre modelos. Descubrimos que, si bien los VLM de última generación logran una gran precisión y calibración, todos los auditores muestran una degradación notable del rendimiento en entornos más complejos o heterogéneos, e incluso los modelos de alto rendimiento muestran un desacuerdo significativo en sus juicios. Estos resultados exponen las limitaciones fundamentales de los enfoques actuales de auditoría basados en modelos y resaltan la necesidad de tener en cuenta explícitamente la confiabilidad, la incertidumbre y la variación del evaluador al implementar CUA autónomas en entornos del mundo real.

Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Agentes de IA y AI de AI agente de una gran cantidad de conceptos para futuras fabricación

Sobre admisibilidad fuerte y débil en la argumentación no basada en la suposición

¿Qué tecnología de transmisión es mejor para la gran actualización de la red del Reino Unido? Informe IET se entera

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido