Resumen: Los modelos de lenguajes grandes (LLM) tienen agentes mejorados con herramientas significativamente avanzados, lo que permite el razonamiento autónomo a través de interacciones API. Sin embargo, la ejecución de tareas de varios pasos dentro de bibliotecas de herramientas masivas sigue siendo un desafío debido a dos cuellos de botella críticos: (1) la ausencia de marcos de evaluación rigurosos a nivel de plan y (2) la demanda computacional de explorar vastos espacios de decisión derivados de grandes conjuntos de herramientas y planificación a largo plazo. Para cerrar estas brechas, primero presentamos SLATE (Kit de herramientas API sintéticas a gran escala para comercio electrónico), un punto de referencia a gran escala consciente del contexto diseñado para la evaluación automatizada de agentes integrados en herramientas. A diferencia de las métricas estáticas, SLATE se adapta a trayectorias de ejecución diversas pero funcionalmente válidas, lo que revela que los agentes actuales luchan con la autocorrección y la eficiencia de la búsqueda. Motivados por estos hallazgos, a continuación proponemos la ramificación guiada por entropía (EGB), un algoritmo de búsqueda consciente de la incertidumbre que expande dinámicamente las ramas de decisión donde la entropía predictiva es alta. EGB optimiza el equilibrio entre exploración y explotación, mejorando significativamente tanto las tasas de éxito de las tareas como la eficiencia computacional. Amplios experimentos en SLATE demuestran que nuestra doble contribución proporciona una base sólida para desarrollar agentes LLM confiables y escalables en entornos ricos en herramientas.
Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original
