OSWorld-Human: Benchmarking la eficiencia de los agentes de uso de la computadora

Resumen: La IA generativa se está aprovechando para resolver una variedad de tareas de uso de la computadora que involucran aplicaciones de escritorio. Los sistemas de vanguardia se han centrado únicamente en mejorar la precisión en los principales puntos de referencia. Sin embargo, estos sistemas son prácticamente inutilizables debido a la latencia extremadamente alta de extremo a extremo (por ejemplo, decenas de minutos) para tareas que generalmente llevan a los humanos solo unos minutos completar. Para comprender la causa detrás de esto y guiar los desarrollos futuros de los agentes informáticos, realizamos el primer estudio sobre el rendimiento temporal de los agentes de uso informático en Osworld, el punto de referencia insignia en la IA de uso de la computadora. Encontramos que el modelo grande requiere que la planificación y la reflexión representen la mayoría de la latencia general, y como un agente utiliza más pasos para completar una tarea, cada paso sucesivo puede tomar 3 veces más que los pasos al comienzo de una tarea. Luego construimos Osworld-Human, una versión anotada manualmente del conjunto de datos original de Osworld que contiene una trayectoria determinada por humanos para cada tarea. Evaluamos 16 agentes en su eficiencia utilizando Osworld-Human y descubrimos que incluso los agentes de mayor puntuación en Osworld toman 1.4-2.7 veces más pasos de los necesarios.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Así es como podría ser la regulación de alimentos y drogas bajo la administración Trump

La coordinación requiere simplificación: límites termodinámicos en el compromiso de objetivos múltiples en la inteligencia natural y artificial

Festa: muestreo funcionalmente equivalente para la evaluación de la confianza de los LLM multimodales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido