Resumen: Construyendo sobre el trabajo empírico reciente de Kwa et al. (2025), muestro que dentro de su conjunto de tareas de ingeniería de investigación, el rendimiento de los agentes de IA en las tareas de mayor duración puede explicarse por un modelo matemático extremadamente simple: una tasa constante de falla durante cada minuto que un humano tomaría para hacer la tarea. Esto implica una tasa de éxito de disminución exponencialmente con la duración de la tarea y que cada agente podría caracterizarse por su propia vida media. Esta regularidad empírica nos permite estimar la tasa de éxito de un agente en diferentes tareas. Y el hecho de que este modelo sea una buena opción para los datos sugiere las causas subyacentes de falla en tareas más largas, que implican conjuntos cada vez más grandes de subtareas donde el fracaso, cualquiera falla la tarea. Se desconoce si este modelo se aplica más generalmente sobre otras suites de tareas y un tema importante para trabajos adicionales.
Publicado Originalme en rss.arxiv.org El 8 de mayo de 2025.
Ver Fuente Original