SCRIBE: Supervisión estructurada de nivel medio para modelos de lenguaje que utilizan herramientas

Resumen: Los resultados experimentales muestran que SCRIBE logra un rendimiento de vanguardia en una variedad de puntos de referencia de razonamiento y uso de herramientas. En particular, mejora la precisión AIME25 de un modelo Qwen3-4B del 43,3 % al 63,3 % y aumenta significativamente las tasas de éxito en interacciones complejas de herramientas de múltiples vueltas.
Un análisis más profundo de la dinámica del entrenamiento revela una coevolución entre los niveles de abstracción, donde el dominio de las habilidades de nivel medio precede consistentemente al surgimiento de comportamientos de planificación efectivos de alto nivel. Finalmente, demostramos que SCRIBE se suma a las optimizaciones de herramientas de bajo nivel, proporcionando un camino escalable y complementario hacia agentes que utilizan herramientas más autónomos y confiables.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Proyecto Riley: colaboración multimodal de múltiples agentes LLM con razonamiento emocional y votación

Un marco para el razonamiento condicional en la programación del conjunto de respuestas

Infojornada regional Andalucía Horizonte Europa: Clúster 4 Industria, Clúster 5 Movilidad y Transporte

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido