Resumen: Evaluamos SCL frente a líneas de base basadas en indicaciones, incluidos ReAct y agentes LangChain comunes, en tres escenarios: planificación de viajes basada en la temperatura, redacción de correos electrónicos con envío condicional y generación de imágenes guiada por restricciones. Todos los sistemas comparten el mismo modelo base y herramientas con configuraciones de decodificación coincidentes. A lo largo de 360 episodios, SCL muestra mejoras modestas pero consistentes. El éxito de la tarea promedia el 86,3 por ciento en comparación con el 70-77 por ciento de las líneas de base. La fidelidad del objetivo es mayor, las llamadas redundantes son menores, los estados intermedios se reutilizan de manera más confiable y se reducen las afirmaciones no respaldadas por cada 100 llamadas a herramientas. Las ablaciones muestran que la memoria externa y el control contribuyen cada uno de forma independiente, y los barridos de decodificación confirman la estabilidad de los efectos.
Estos resultados sugieren que la separación arquitectónica puede mejorar la confiabilidad y la trazabilidad sin depender de modelos más grandes o indicaciones más importantes. Los hallazgos son preliminares y pretenden guiar estudios ampliados con modelos adicionales, horizontes más amplios, tareas multimodales y entornos colaborativos.
Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original
