Hacia una ciencia de la confiabilidad de los agentes de IA

Resumen: Los agentes de IA se utilizan cada vez más para ejecutar tareas importantes. Si bien el aumento de las puntuaciones de precisión en los puntos de referencia estándar sugiere un progreso rápido, muchos agentes siguen fallando en la práctica. Esta discrepancia resalta una limitación fundamental de las evaluaciones actuales: comprimir el comportamiento de los agentes en una única métrica de éxito oculta fallas operativas críticas. En particular, ignora si los agentes se comportan de manera consistente en todas las ejecuciones, resisten perturbaciones, fallan de manera predecible o tienen una gravedad de error limitada. Basados en ingeniería crítica para la seguridad, proporcionamos un perfil de desempeño holístico al proponer doce métricas concretas que descomponen la confiabilidad del agente en cuatro dimensiones clave: consistencia, solidez, previsibilidad y seguridad. Al evaluar 14 modelos agentes a través de dos puntos de referencia complementarios, encontramos que las recientes ganancias de capacidad solo han producido pequeñas mejoras en la confiabilidad. Al exponer estas limitaciones persistentes, nuestras métricas complementan las evaluaciones tradicionales y al mismo tiempo ofrecen herramientas para razonar sobre cómo se desempeñan, degradan y fallan los agentes.

Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

TripScore: evaluación comparativa y recompensa de la planificación de viajes en el mundo real con una evaluación detallada

Cuantización consciente de la alineación para la seguridad de LLM

Leanabell-Prover-V2: razonamiento integrado por el verificador para el teorema formal de prueba a través del aprendizaje de refuerzo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido