¿Qué limita la eficiencia de los sistemas agentes?

Resumen: Los modelos de lenguajes grandes (LLM), como OpenAI-o1 y DeepSeek-R1, han demostrado sólidas capacidades de razonamiento. Para mejorar aún más las capacidades de LLM, los sistemas agentes recientes, como Deep Research, incorporan interacciones web en el razonamiento de LLM para mitigar las incertidumbres y reducir posibles errores. Sin embargo, la investigación existente se centra predominantemente en el desempeño del razonamiento, descuidando a menudo la eficiencia de los sistemas agentes. En este trabajo, presentamos un estudio empírico integral que identifica los cuellos de botella de eficiencia en los sistemas agentes interactivos en la web. Descomponemos la latencia de un extremo a otro en dos componentes principales: latencia de la API de LLM y latencia del entorno web. Realizamos un estudio empírico integral en 15 modelos y 5 proveedores para demostrar una alta variabilidad en los sistemas agentes basados en API. Observamos que la latencia del entorno web puede contribuir hasta un 53,7% a la latencia general en un sistema agente basado en web. Para mejorar la latencia, proponemos SpecCache, un marco de almacenamiento en caché aumentado con ejecución especulativa que puede reducir la sobrecarga del entorno web. Evaluaciones exhaustivas de dos puntos de referencia estándar muestran que nuestro enfoque mejora la tasa de aciertos de caché hasta 58 veces en comparación con una estrategia de almacenamiento en caché aleatorio, al tiempo que reduce la sobrecarga del entorno web hasta 3,2 veces, sin degradar el rendimiento del sistema agente.

Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Las pinturas, revestimientos y productos químicos que hacen del mundo un lugar más fresco

SAJA: Un marco de ataque conjunto de acción estatal sobre el aprendizaje por refuerzo profundo de múltiples agentes

AI incorporada de múltiples agentes: avances y direcciones futuras

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido