Resumen: A medida que el enfoque en la codificación basada en LLM cambia de la generación de código estático en un solo paso a la interacción agente de varios pasos con herramientas y entornos, comprender qué tareas desafiarán a los agentes y por qué se vuelve cada vez más difícil. Esto se ve agravado por la práctica actual: el desempeño de los agentes generalmente se mide mediante tasas de aprobación agregadas en los puntos de referencia, pero las métricas de un solo número oscurecen la diversidad de tareas dentro de un punto de referencia. Presentamos un marco para predecir el éxito o el fracaso en tareas individuales adaptadas al régimen de codificación agente. Nuestro enfoque aumenta la teoría de respuesta al ítem (IRT) con características ricas extraídas de tareas, incluidas declaraciones de problemas, contextos de repositorio, soluciones y casos de prueba, e introduce una descomposición novedosa de la capacidad del agente en LLM y componentes de capacidad de andamio. Esta parametrización nos permite agregar datos de evaluación en tablas de clasificación heterogéneas y predecir con precisión el rendimiento a nivel de tarea para puntos de referencia invisibles, así como combinaciones de andamios LLM invisibles. Nuestros métodos tienen una utilidad práctica para los diseñadores de referencia, quienes pueden calibrar mejor la dificultad de sus nuevas tareas sin ejecutar evaluaciones de agentes computacionalmente costosas.
Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original
