Resumen:A medida que los grandes modelos de lenguaje se convierten en componentes de sistemas agentes más grandes, la confiabilidad de la evaluación se vuelve crítica: los subagentes poco confiables introducen fragilidad en el comportamiento del sistema posterior. Sin embargo, la práctica de evaluación actual, que informa un único número de precisión de una sola ejecución, oscurece la variación subyacente a estos resultados, haciendo imposible distinguir las mejoras de capacidad genuinas del muestreo afortunado. Proponemos adoptar el coeficiente de correlación intraclase (ICC), una métrica de la ciencia de la medición, para caracterizar esta varianza. ICC descompone la varianza observada en varianza entre consultas (dificultad de la tarea) y varianza dentro de la consulta (inconsistencia del agente), destacando si los resultados informados reflejan la verdadera capacidad o el ruido de la medición. Evaluamos en GAIA (Niveles 1 a 3, que miden capacidades de agente en diferentes complejidades de razonamiento) y FRAMES (que miden la recuperación y la factualidad en múltiples documentos). Descubrimos que el ICC varía dramáticamente con la estructura de la tarea, con tareas de razonamiento y recuperación (FRAMES) que exhiben ICC = 0,4955-0,7118 en todos los modelos, y tareas de agente (GAIA) que exhiben ICC = 0,304-0,774 en todos los modelos. Para las decisiones de reemplazo de subagentes en sistemas agentes, las mejoras en la precisión solo son confiables si ICC también mejora. Demostramos que ICC converge en n=8-16 ensayos para tareas estructuradas y n>=32 para razonamiento complejo, lo que permite a los profesionales establecer presupuestos de remuestreo basados en evidencia. Recomendamos informar la precisión junto con ICC y la variación dentro de la consulta como práctica estándar, y proponemos tarjetas de evaluación actualizadas que capturen estas métricas. Al hacer visible la estabilidad de la evaluación, nuestro objetivo es transformar la evaluación comparativa agencial de una competencia opaca en las tablas de clasificación a una ciencia experimental confiable. Nuestro código es de código abierto en esta URL https.
Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original
