Cuando los agentes no actúan: un marco de diagnóstico para la confiabilidad de la invocación de herramientas en sistemas LLM de múltiples agentes

Resumen: Los sistemas multiagente impulsados por grandes modelos de lenguaje (LLM) están transformando la automatización empresarial, pero las metodologías de evaluación sistemática para evaluar la confiabilidad del uso de herramientas siguen estando subdesarrolladas. Presentamos un marco de diagnóstico integral que aprovecha el análisis de big data para evaluar la confiabilidad de los procedimientos en sistemas de agentes inteligentes, abordando necesidades críticas para la implementación centrada en las PYME en entornos sensibles a la privacidad. Nuestro enfoque presenta una taxonomía de errores de 12 categorías que captura los modos de falla en la inicialización de herramientas, el manejo de parámetros, la ejecución y la interpretación de resultados. A través de una evaluación sistemática de 1980 instancias de prueba deterministas que abarcan modelos abiertos (serie Qwen2.5, Functionary) y alternativas patentadas (GPT-4, Claude 3.5/3.7) en diversas configuraciones de hardware de borde, identificamos umbrales de confiabilidad procesables para la implementación de producción. Nuestro análisis revela que la confiabilidad de los procedimientos, en particular las fallas de inicialización de las herramientas, constituye el principal cuello de botella para los modelos más pequeños, mientras que qwen2.5:32b logra un rendimiento impecable que coincide con GPT-4.1. El marco demuestra que los modelos de tamaño mediano (qwen2.5:14b) ofrecen compensaciones prácticas entre precisión y eficiencia en hardware básico (tasa de éxito del 96,6%, latencia de 7,3 s), lo que permite una implementación rentable de agentes inteligentes para organizaciones con recursos limitados. Este trabajo establece una infraestructura fundamental para la evaluación sistemática de la confiabilidad de sistemas de inteligencia artificial multiagente aumentados con herramientas.

Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: los estudios de clima de EE. UU. Se están cerrando y construyendo ciudades de lava

Idioma y pensamiento: la vista desde LLMS

Generación de diálogo asistente proactivo desde la transmisión de videos egocéntricos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido