Resumen: La confiabilidad es clave para hacer realidad la promesa de los agentes UI autónomos, agentes multimodales que interactúan directamente con las aplicaciones de la misma manera que los humanos, ya que los usuarios deben poder confiar en un agente para completar una tarea determinada. Las evaluaciones actuales se basan en entornos fijos, a menudo clones de aplicaciones existentes, que están limitadas porque solo pueden arrojar luz sobre si un agente puede completar una tarea dentro de un entorno específico y con qué frecuencia. Sin embargo, cuando se implementan, es probable que los agentes encuentren variaciones en el diseño y el contenido de la aplicación que pueden afectar la capacidad de un agente para completar una tarea. Para abordar este punto ciego a la hora de medir la confiabilidad de los agentes en todas las variaciones de aplicaciones, desarrollamos OpenApps, un ecosistema liviano de código abierto con seis aplicaciones (mensajería, calendario, mapas, etc.) que se pueden configurar en apariencia y contenido. OpenApps requiere solo una CPU para ejecutarse, lo que permite generar e implementar fácilmente miles de versiones de cada aplicación. Específicamente, realizamos más de 10 000 evaluaciones independientes para estudiar la confiabilidad de siete agentes multimodales líderes. Descubrimos que, si bien la confiabilidad estándar dentro de una aplicación fija es relativamente estable, la confiabilidad puede variar drásticamente cuando se mide entre las variaciones de la aplicación. Las tasas de éxito de las tareas para muchos agentes pueden fluctuar en más de $50%$ según las variaciones de la aplicación. Por ejemplo, el éxito promedio de Kimi-VL-3B en todas las tareas fluctúa entre $63%$ y solo $4%$ en todas las versiones de la aplicación. También encontramos que los comportamientos de los agentes, como acciones en bucle o alucinaciones, pueden diferir drásticamente según la configuración del entorno. Estos hallazgos iniciales resaltan la importancia de medir la confiabilidad en esta nueva dimensión de las variaciones de las aplicaciones. OpenApps está disponible en esta URL https
Publicado originalmente en export.arxiv.org el 26 de noviembre de 2025.
Ver fuente original
