En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Cuando los agentes no actúan: un marco de diagnóstico para la confiabilidad de la invocación de herramientas en sistemas LLM de múltiples agentes

Cuando los agentes no actúan: un marco de diagnóstico para la confiabilidad de la invocación de herramientas en sistemas LLM de múltiples agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los sistemas multiagente impulsados ​​por grandes modelos de lenguaje (LLM) están transformando la automatización empresarial, pero las metodologías de evaluación sistemática para evaluar la confiabilidad del uso de herramientas siguen estando subdesarrolladas. Presentamos un marco de diagnóstico integral que aprovecha el análisis de big data para evaluar la confiabilidad de los procedimientos en sistemas de agentes inteligentes, abordando necesidades críticas para la implementación centrada en las PYME en entornos sensibles a la privacidad. Nuestro enfoque presenta una taxonomía de errores de 12 categorías que captura los modos de falla en la inicialización de herramientas, el manejo de parámetros, la ejecución y la interpretación de resultados. A través de una evaluación sistemática de 1980 instancias de prueba deterministas que abarcan modelos abiertos (serie Qwen2.5, Functionary) y alternativas patentadas (GPT-4, Claude 3.5/3.7) en diversas configuraciones de hardware de borde, identificamos umbrales de confiabilidad procesables para la implementación de producción. Nuestro análisis revela que la confiabilidad de los procedimientos, en particular las fallas de inicialización de las herramientas, constituye el principal cuello de botella para los modelos más pequeños, mientras que qwen2.5:32b logra un rendimiento impecable que coincide con GPT-4.1. El marco demuestra que los modelos de tamaño mediano (qwen2.5:14b) ofrecen compensaciones prácticas entre precisión y eficiencia en hardware básico (tasa de éxito del 96,6%, latencia de 7,3 s), lo que permite una implementación rentable de agentes inteligentes para organizaciones con recursos limitados. Este trabajo establece una infraestructura fundamental para la evaluación sistemática de la confiabilidad de sistemas de inteligencia artificial multiagente aumentados con herramientas.

Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web