Resumen: Los resultados experimentales muestran que SCRIBE logra un rendimiento de vanguardia en una variedad de puntos de referencia de razonamiento y uso de herramientas. En particular, mejora la precisión AIME25 de un modelo Qwen3-4B del 43,3 % al 63,3 % y aumenta significativamente las tasas de éxito en interacciones complejas de herramientas de múltiples vueltas.
Un análisis más profundo de la dinámica del entrenamiento revela una coevolución entre los niveles de abstracción, donde el dominio de las habilidades de nivel medio precede consistentemente al surgimiento de comportamientos de planificación efectivos de alto nivel. Finalmente, demostramos que SCRIBE se suma a las optimizaciones de herramientas de bajo nivel, proporcionando un camino escalable y complementario hacia agentes que utilizan herramientas más autónomos y confiables.
Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original
