En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->CUAAudit: Metaevaluación de modelos de visión-lenguaje como auditores de agentes autónomos de uso de computadoras

CUAAudit: Metaevaluación de modelos de visión-lenguaje como auditores de agentes autónomos de uso de computadoras

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes de uso de computadoras (CUA) están surgiendo como un nuevo paradigma en la interacción persona-computadora, permitiendo la ejecución autónoma de tareas en un entorno de escritorio mediante la percepción de instrucciones de lenguaje natural de alto nivel. A medida que dichos agentes se vuelven cada vez más capaces y se implementan en diversos entornos de escritorio, evaluar su comportamiento de manera escalable y confiable se convierte en un desafío crítico. Los procesos de evaluación existentes se basan en puntos de referencia estáticos, verificaciones de éxito basadas en reglas o inspecciones manuales, que son frágiles, costosas y mal alineadas con el uso en el mundo real. En este trabajo, estudiamos los modelos de visión-lenguaje (VLM) como auditores autónomos para evaluar la finalización de tareas CUA directamente a partir de interacciones observables y realizamos una metaevaluación a gran escala de cinco VLM que juzgan el éxito de la tarea dada una instrucción en lenguaje natural y el estado final del entorno. Nuestra evaluación abarca tres puntos de referencia CUA ampliamente utilizados en entornos macOS, Windows y Linux y analiza el comportamiento del auditor en tres dimensiones complementarias: precisión, calibración de estimaciones de confianza y acuerdo entre modelos. Descubrimos que, si bien los VLM de última generación logran una gran precisión y calibración, todos los auditores muestran una degradación notable del rendimiento en entornos más complejos o heterogéneos, e incluso los modelos de alto rendimiento muestran un desacuerdo significativo en sus juicios. Estos resultados exponen las limitaciones fundamentales de los enfoques actuales de auditoría basados ​​en modelos y resaltan la necesidad de tener en cuenta explícitamente la confiabilidad, la incertidumbre y la variación del evaluador al implementar CUA autónomas en entornos del mundo real.

Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web