Resumen: La IA generativa se está aprovechando para resolver una variedad de tareas de uso de la computadora que involucran aplicaciones de escritorio. Los sistemas de vanguardia se han centrado únicamente en mejorar la precisión en los principales puntos de referencia. Sin embargo, estos sistemas son prácticamente inutilizables debido a la latencia extremadamente alta de extremo a extremo (por ejemplo, decenas de minutos) para tareas que generalmente llevan a los humanos solo unos minutos completar. Para comprender la causa detrás de esto y guiar los desarrollos futuros de los agentes informáticos, realizamos el primer estudio sobre el rendimiento temporal de los agentes de uso informático en Osworld, el punto de referencia insignia en la IA de uso de la computadora. Encontramos que el modelo grande requiere que la planificación y la reflexión representen la mayoría de la latencia general, y como un agente utiliza más pasos para completar una tarea, cada paso sucesivo puede tomar 3 veces más que los pasos al comienzo de una tarea. Luego construimos Osworld-Human, una versión anotada manualmente del conjunto de datos original de Osworld que contiene una trayectoria determinada por humanos para cada tarea. Evaluamos 16 agentes en su eficiencia utilizando Osworld-Human y descubrimos que incluso los agentes de mayor puntuación en Osworld toman 1.4-2.7 veces más pasos de los necesarios.
Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original