Psicometría de agentes: predicción del rendimiento a nivel de tarea en puntos de referencia de codificación agente

Resumen: A medida que el enfoque en la codificación basada en LLM cambia de la generación de código estático en un solo paso a la interacción agente de varios pasos con herramientas y entornos, comprender qué tareas desafiarán a los agentes y por qué se vuelve cada vez más difícil. Esto se ve agravado por la práctica actual: el desempeño de los agentes generalmente se mide mediante tasas de aprobación agregadas en los puntos de referencia, pero las métricas de un solo número oscurecen la diversidad de tareas dentro de un punto de referencia. Presentamos un marco para predecir el éxito o el fracaso en tareas individuales adaptadas al régimen de codificación agente. Nuestro enfoque aumenta la teoría de respuesta al ítem (IRT) con características ricas extraídas de tareas, incluidas declaraciones de problemas, contextos de repositorio, soluciones y casos de prueba, e introduce una descomposición novedosa de la capacidad del agente en LLM y componentes de capacidad de andamio. Esta parametrización nos permite agregar datos de evaluación en tablas de clasificación heterogéneas y predecir con precisión el rendimiento a nivel de tarea para puntos de referencia invisibles, así como combinaciones de andamios LLM invisibles. Nuestros métodos tienen una utilidad práctica para los diseñadores de referencia, quienes pueden calibrar mejor la dificultad de sus nuevas tareas sin ejecutar evaluaciones de agentes computacionalmente costosas.

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Dar a los agentes de IA acceso a criptomonedas y contratos inteligentes crea nuevos vectores de daño de IA

La forma sigue a la función: modelo de raíz recursivo

Hacia una mayor autonomía en los agentes de descubrimiento de materiales: planificación unificadora, física y científicos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido