Resumen: Los agentes de IA se utilizan cada vez más para ejecutar tareas importantes. Si bien el aumento de las puntuaciones de precisión en los puntos de referencia estándar sugiere un progreso rápido, muchos agentes siguen fallando en la práctica. Esta discrepancia resalta una limitación fundamental de las evaluaciones actuales: comprimir el comportamiento de los agentes en una única métrica de éxito oculta fallas operativas críticas. En particular, ignora si los agentes se comportan de manera consistente en todas las ejecuciones, resisten perturbaciones, fallan de manera predecible o tienen una gravedad de error limitada. Basados en ingeniería crítica para la seguridad, proporcionamos un perfil de desempeño holístico al proponer doce métricas concretas que descomponen la confiabilidad del agente en cuatro dimensiones clave: consistencia, solidez, previsibilidad y seguridad. Al evaluar 14 modelos agentes a través de dos puntos de referencia complementarios, encontramos que las recientes ganancias de capacidad solo han producido pequeñas mejoras en la confiabilidad. Al exponer estas limitaciones persistentes, nuestras métricas complementan las evaluaciones tradicionales y al mismo tiempo ofrecen herramientas para razonar sobre cómo se desempeñan, degradan y fallan los agentes.
Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original
